{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 2562,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00117096018735363,
      "grad_norm": 2.397789478302002,
      "learning_rate": 1.5503875968992249e-07,
      "loss": 0.5513913631439209,
      "memory(GiB)": 137.67,
      "step": 1,
      "token_acc": 0.8478124608248715,
      "train_speed(iter/s)": 0.014244
    },
    {
      "epoch": 0.00585480093676815,
      "grad_norm": 2.213494300842285,
      "learning_rate": 7.751937984496125e-07,
      "loss": 0.5191692113876343,
      "memory(GiB)": 137.67,
      "step": 5,
      "token_acc": 0.848514893999071,
      "train_speed(iter/s)": 0.029361
    },
    {
      "epoch": 0.0117096018735363,
      "grad_norm": 2.0672056674957275,
      "learning_rate": 1.550387596899225e-06,
      "loss": 0.5157936096191407,
      "memory(GiB)": 137.67,
      "step": 10,
      "token_acc": 0.8392344826938901,
      "train_speed(iter/s)": 0.034106
    },
    {
      "epoch": 0.01756440281030445,
      "grad_norm": 1.588051676750183,
      "learning_rate": 2.3255813953488376e-06,
      "loss": 0.49305076599121095,
      "memory(GiB)": 137.67,
      "step": 15,
      "token_acc": 0.8437633920693741,
      "train_speed(iter/s)": 0.03643
    },
    {
      "epoch": 0.0234192037470726,
      "grad_norm": 0.7405409812927246,
      "learning_rate": 3.10077519379845e-06,
      "loss": 0.43950672149658204,
      "memory(GiB)": 137.67,
      "step": 20,
      "token_acc": 0.848157187048235,
      "train_speed(iter/s)": 0.03757
    },
    {
      "epoch": 0.02927400468384075,
      "grad_norm": 0.8562428951263428,
      "learning_rate": 3.875968992248063e-06,
      "loss": 0.4227635383605957,
      "memory(GiB)": 137.67,
      "step": 25,
      "token_acc": 0.8593663993232968,
      "train_speed(iter/s)": 0.038283
    },
    {
      "epoch": 0.0351288056206089,
      "grad_norm": 0.4966309666633606,
      "learning_rate": 4.651162790697675e-06,
      "loss": 0.4113954544067383,
      "memory(GiB)": 137.67,
      "step": 30,
      "token_acc": 0.8579081152325363,
      "train_speed(iter/s)": 0.038822
    },
    {
      "epoch": 0.040983606557377046,
      "grad_norm": 0.4413171410560608,
      "learning_rate": 5.4263565891472865e-06,
      "loss": 0.40917291641235354,
      "memory(GiB)": 137.67,
      "step": 35,
      "token_acc": 0.8563618960945223,
      "train_speed(iter/s)": 0.039192
    },
    {
      "epoch": 0.0468384074941452,
      "grad_norm": 0.37367990612983704,
      "learning_rate": 6.2015503875969e-06,
      "loss": 0.38341727256774905,
      "memory(GiB)": 137.67,
      "step": 40,
      "token_acc": 0.8598059924304837,
      "train_speed(iter/s)": 0.039486
    },
    {
      "epoch": 0.05269320843091335,
      "grad_norm": 0.2625274062156677,
      "learning_rate": 6.976744186046513e-06,
      "loss": 0.39299936294555665,
      "memory(GiB)": 137.67,
      "step": 45,
      "token_acc": 0.8545384055298668,
      "train_speed(iter/s)": 0.03968
    },
    {
      "epoch": 0.0585480093676815,
      "grad_norm": 0.27871787548065186,
      "learning_rate": 7.751937984496126e-06,
      "loss": 0.38351633548736574,
      "memory(GiB)": 137.67,
      "step": 50,
      "token_acc": 0.8680353205073448,
      "train_speed(iter/s)": 0.039861
    },
    {
      "epoch": 0.06440281030444965,
      "grad_norm": 0.2245069444179535,
      "learning_rate": 8.527131782945736e-06,
      "loss": 0.3764484882354736,
      "memory(GiB)": 137.67,
      "step": 55,
      "token_acc": 0.8676952168658857,
      "train_speed(iter/s)": 0.040018
    },
    {
      "epoch": 0.0702576112412178,
      "grad_norm": 0.22919970750808716,
      "learning_rate": 9.30232558139535e-06,
      "loss": 0.3956867218017578,
      "memory(GiB)": 137.67,
      "step": 60,
      "token_acc": 0.865152491108186,
      "train_speed(iter/s)": 0.040146
    },
    {
      "epoch": 0.07611241217798595,
      "grad_norm": 0.21093736588954926,
      "learning_rate": 1.0077519379844963e-05,
      "loss": 0.37714409828186035,
      "memory(GiB)": 137.67,
      "step": 65,
      "token_acc": 0.8760504070619795,
      "train_speed(iter/s)": 0.040253
    },
    {
      "epoch": 0.08196721311475409,
      "grad_norm": 0.21410879492759705,
      "learning_rate": 1.0852713178294573e-05,
      "loss": 0.3757580995559692,
      "memory(GiB)": 137.67,
      "step": 70,
      "token_acc": 0.8649565195567881,
      "train_speed(iter/s)": 0.040315
    },
    {
      "epoch": 0.08782201405152225,
      "grad_norm": 0.1979837864637375,
      "learning_rate": 1.1627906976744187e-05,
      "loss": 0.37558441162109374,
      "memory(GiB)": 137.67,
      "step": 75,
      "token_acc": 0.8532517495556191,
      "train_speed(iter/s)": 0.040405
    },
    {
      "epoch": 0.0936768149882904,
      "grad_norm": 0.207350954413414,
      "learning_rate": 1.24031007751938e-05,
      "loss": 0.3741091966629028,
      "memory(GiB)": 137.67,
      "step": 80,
      "token_acc": 0.8612590246358096,
      "train_speed(iter/s)": 0.040461
    },
    {
      "epoch": 0.09953161592505855,
      "grad_norm": 0.19452251493930817,
      "learning_rate": 1.3178294573643412e-05,
      "loss": 0.3656472682952881,
      "memory(GiB)": 137.67,
      "step": 85,
      "token_acc": 0.8822223551750307,
      "train_speed(iter/s)": 0.040557
    },
    {
      "epoch": 0.1053864168618267,
      "grad_norm": 0.20653362572193146,
      "learning_rate": 1.3953488372093025e-05,
      "loss": 0.3706169605255127,
      "memory(GiB)": 137.67,
      "step": 90,
      "token_acc": 0.8654753188641241,
      "train_speed(iter/s)": 0.04063
    },
    {
      "epoch": 0.11124121779859485,
      "grad_norm": 0.20383736491203308,
      "learning_rate": 1.4728682170542636e-05,
      "loss": 0.3718616485595703,
      "memory(GiB)": 137.67,
      "step": 95,
      "token_acc": 0.8700523810121971,
      "train_speed(iter/s)": 0.040694
    },
    {
      "epoch": 0.117096018735363,
      "grad_norm": 0.2144174873828888,
      "learning_rate": 1.550387596899225e-05,
      "loss": 0.3716637134552002,
      "memory(GiB)": 137.67,
      "step": 100,
      "token_acc": 0.871046915998142,
      "train_speed(iter/s)": 0.040754
    },
    {
      "epoch": 0.12295081967213115,
      "grad_norm": 0.2225562483072281,
      "learning_rate": 1.6279069767441862e-05,
      "loss": 0.3682845115661621,
      "memory(GiB)": 137.67,
      "step": 105,
      "token_acc": 0.8729440672893664,
      "train_speed(iter/s)": 0.040816
    },
    {
      "epoch": 0.1288056206088993,
      "grad_norm": 0.2207648605108261,
      "learning_rate": 1.7054263565891473e-05,
      "loss": 0.3570878982543945,
      "memory(GiB)": 137.67,
      "step": 110,
      "token_acc": 0.8706495975584588,
      "train_speed(iter/s)": 0.04088
    },
    {
      "epoch": 0.13466042154566746,
      "grad_norm": 0.2282887101173401,
      "learning_rate": 1.7829457364341087e-05,
      "loss": 0.3752657175064087,
      "memory(GiB)": 137.67,
      "step": 115,
      "token_acc": 0.8784262063618629,
      "train_speed(iter/s)": 0.040925
    },
    {
      "epoch": 0.1405152224824356,
      "grad_norm": 0.23532657325267792,
      "learning_rate": 1.86046511627907e-05,
      "loss": 0.3657325029373169,
      "memory(GiB)": 137.67,
      "step": 120,
      "token_acc": 0.8712829028328604,
      "train_speed(iter/s)": 0.040965
    },
    {
      "epoch": 0.14637002341920374,
      "grad_norm": 0.2132922112941742,
      "learning_rate": 1.937984496124031e-05,
      "loss": 0.3799854278564453,
      "memory(GiB)": 137.67,
      "step": 125,
      "token_acc": 0.8649469651038509,
      "train_speed(iter/s)": 0.041003
    },
    {
      "epoch": 0.1522248243559719,
      "grad_norm": 0.2445414662361145,
      "learning_rate": 1.9999991663467044e-05,
      "loss": 0.3770766258239746,
      "memory(GiB)": 137.67,
      "step": 130,
      "token_acc": 0.8692484710531911,
      "train_speed(iter/s)": 0.041036
    },
    {
      "epoch": 0.15807962529274006,
      "grad_norm": 0.2305486649274826,
      "learning_rate": 1.9999699886272926e-05,
      "loss": 0.3788888931274414,
      "memory(GiB)": 137.67,
      "step": 135,
      "token_acc": 0.8571357490266324,
      "train_speed(iter/s)": 0.041054
    },
    {
      "epoch": 0.16393442622950818,
      "grad_norm": 0.2297585904598236,
      "learning_rate": 1.9998991296330317e-05,
      "loss": 0.3768150806427002,
      "memory(GiB)": 137.67,
      "step": 140,
      "token_acc": 0.8707652096887886,
      "train_speed(iter/s)": 0.04107
    },
    {
      "epoch": 0.16978922716627634,
      "grad_norm": 0.22929546236991882,
      "learning_rate": 1.9997865923175027e-05,
      "loss": 0.3672610282897949,
      "memory(GiB)": 137.67,
      "step": 145,
      "token_acc": 0.8764070583454463,
      "train_speed(iter/s)": 0.041074
    },
    {
      "epoch": 0.1756440281030445,
      "grad_norm": 0.2531713843345642,
      "learning_rate": 1.999632381371545e-05,
      "loss": 0.3735011577606201,
      "memory(GiB)": 137.67,
      "step": 150,
      "token_acc": 0.8610904473031397,
      "train_speed(iter/s)": 0.041095
    },
    {
      "epoch": 0.18149882903981265,
      "grad_norm": 0.21190133690834045,
      "learning_rate": 1.999436503223061e-05,
      "loss": 0.37088618278503416,
      "memory(GiB)": 137.67,
      "step": 155,
      "token_acc": 0.869811065319577,
      "train_speed(iter/s)": 0.0411
    },
    {
      "epoch": 0.1873536299765808,
      "grad_norm": 0.24962091445922852,
      "learning_rate": 1.9991989660367463e-05,
      "loss": 0.3776357650756836,
      "memory(GiB)": 137.67,
      "step": 160,
      "token_acc": 0.8544295113661168,
      "train_speed(iter/s)": 0.041107
    },
    {
      "epoch": 0.19320843091334894,
      "grad_norm": 0.20956465601921082,
      "learning_rate": 1.998919779713751e-05,
      "loss": 0.3805836200714111,
      "memory(GiB)": 137.67,
      "step": 165,
      "token_acc": 0.8613002884067936,
      "train_speed(iter/s)": 0.041115
    },
    {
      "epoch": 0.1990632318501171,
      "grad_norm": 0.206803560256958,
      "learning_rate": 1.998598955891266e-05,
      "loss": 0.3702584505081177,
      "memory(GiB)": 137.67,
      "step": 170,
      "token_acc": 0.8749547416575101,
      "train_speed(iter/s)": 0.04113
    },
    {
      "epoch": 0.20491803278688525,
      "grad_norm": 0.23116904497146606,
      "learning_rate": 1.9982365079420382e-05,
      "loss": 0.3598947048187256,
      "memory(GiB)": 137.67,
      "step": 175,
      "token_acc": 0.8684363191646153,
      "train_speed(iter/s)": 0.041153
    },
    {
      "epoch": 0.2107728337236534,
      "grad_norm": 0.22105969488620758,
      "learning_rate": 1.9978324509738147e-05,
      "loss": 0.36261582374572754,
      "memory(GiB)": 137.67,
      "step": 180,
      "token_acc": 0.8722339081558761,
      "train_speed(iter/s)": 0.041173
    },
    {
      "epoch": 0.21662763466042154,
      "grad_norm": 0.21819841861724854,
      "learning_rate": 1.9973868018287093e-05,
      "loss": 0.3629172325134277,
      "memory(GiB)": 137.67,
      "step": 185,
      "token_acc": 0.8667994850156469,
      "train_speed(iter/s)": 0.041195
    },
    {
      "epoch": 0.2224824355971897,
      "grad_norm": 0.2083064317703247,
      "learning_rate": 1.9968995790825048e-05,
      "loss": 0.3675278902053833,
      "memory(GiB)": 137.67,
      "step": 190,
      "token_acc": 0.8575012434717731,
      "train_speed(iter/s)": 0.0412
    },
    {
      "epoch": 0.22833723653395785,
      "grad_norm": 0.21168376505374908,
      "learning_rate": 1.9963708030438754e-05,
      "loss": 0.3663478374481201,
      "memory(GiB)": 137.67,
      "step": 195,
      "token_acc": 0.8699046566256736,
      "train_speed(iter/s)": 0.041213
    },
    {
      "epoch": 0.234192037470726,
      "grad_norm": 0.21624095737934113,
      "learning_rate": 1.995800495753542e-05,
      "loss": 0.36658034324645994,
      "memory(GiB)": 137.67,
      "step": 200,
      "token_acc": 0.8611760598068374,
      "train_speed(iter/s)": 0.041221
    },
    {
      "epoch": 0.24004683840749413,
      "grad_norm": 0.21765926480293274,
      "learning_rate": 1.9951886809833537e-05,
      "loss": 0.37610225677490233,
      "memory(GiB)": 137.67,
      "step": 205,
      "token_acc": 0.8608684017275929,
      "train_speed(iter/s)": 0.041233
    },
    {
      "epoch": 0.2459016393442623,
      "grad_norm": 0.21804192662239075,
      "learning_rate": 1.9945353842352943e-05,
      "loss": 0.37209372520446776,
      "memory(GiB)": 137.67,
      "step": 210,
      "token_acc": 0.8637638606903014,
      "train_speed(iter/s)": 0.041242
    },
    {
      "epoch": 0.25175644028103045,
      "grad_norm": 0.21353310346603394,
      "learning_rate": 1.9938406327404233e-05,
      "loss": 0.36923999786376954,
      "memory(GiB)": 137.67,
      "step": 215,
      "token_acc": 0.8725016214590311,
      "train_speed(iter/s)": 0.041259
    },
    {
      "epoch": 0.2576112412177986,
      "grad_norm": 0.21438100934028625,
      "learning_rate": 1.9931044554577373e-05,
      "loss": 0.36598026752471924,
      "memory(GiB)": 137.67,
      "step": 220,
      "token_acc": 0.8663032304289586,
      "train_speed(iter/s)": 0.041275
    },
    {
      "epoch": 0.26346604215456676,
      "grad_norm": 0.21610133349895477,
      "learning_rate": 1.992326883072965e-05,
      "loss": 0.36849284172058105,
      "memory(GiB)": 137.67,
      "step": 225,
      "token_acc": 0.8614589650451081,
      "train_speed(iter/s)": 0.041281
    },
    {
      "epoch": 0.2693208430913349,
      "grad_norm": 0.2203439474105835,
      "learning_rate": 1.991507947997287e-05,
      "loss": 0.3765848636627197,
      "memory(GiB)": 137.67,
      "step": 230,
      "token_acc": 0.8680725737864995,
      "train_speed(iter/s)": 0.041291
    },
    {
      "epoch": 0.275175644028103,
      "grad_norm": 0.22208204865455627,
      "learning_rate": 1.9906476843659866e-05,
      "loss": 0.3718143939971924,
      "memory(GiB)": 137.67,
      "step": 235,
      "token_acc": 0.8758277835099897,
      "train_speed(iter/s)": 0.041301
    },
    {
      "epoch": 0.2810304449648712,
      "grad_norm": 0.20069433748722076,
      "learning_rate": 1.989746128037024e-05,
      "loss": 0.3583400249481201,
      "memory(GiB)": 137.67,
      "step": 240,
      "token_acc": 0.8676873362719415,
      "train_speed(iter/s)": 0.04131
    },
    {
      "epoch": 0.28688524590163933,
      "grad_norm": 0.19968946278095245,
      "learning_rate": 1.988803316589545e-05,
      "loss": 0.3672914505004883,
      "memory(GiB)": 137.67,
      "step": 245,
      "token_acc": 0.8662484056672067,
      "train_speed(iter/s)": 0.041328
    },
    {
      "epoch": 0.2927400468384075,
      "grad_norm": 0.21298536658287048,
      "learning_rate": 1.987819289322311e-05,
      "loss": 0.3696786403656006,
      "memory(GiB)": 137.67,
      "step": 250,
      "token_acc": 0.8654257420775034,
      "train_speed(iter/s)": 0.041348
    },
    {
      "epoch": 0.29859484777517564,
      "grad_norm": 0.2145387828350067,
      "learning_rate": 1.9867940872520646e-05,
      "loss": 0.3744542598724365,
      "memory(GiB)": 137.67,
      "step": 255,
      "token_acc": 0.8661229081704401,
      "train_speed(iter/s)": 0.041346
    },
    {
      "epoch": 0.3044496487119438,
      "grad_norm": 0.2132762223482132,
      "learning_rate": 1.9857277531118173e-05,
      "loss": 0.36826577186584475,
      "memory(GiB)": 137.67,
      "step": 260,
      "token_acc": 0.8788229158157335,
      "train_speed(iter/s)": 0.041353
    },
    {
      "epoch": 0.31030444964871196,
      "grad_norm": 0.2133207470178604,
      "learning_rate": 1.9846203313490697e-05,
      "loss": 0.35997600555419923,
      "memory(GiB)": 137.67,
      "step": 265,
      "token_acc": 0.8834285319525085,
      "train_speed(iter/s)": 0.041363
    },
    {
      "epoch": 0.3161592505854801,
      "grad_norm": 0.23535007238388062,
      "learning_rate": 1.983471868123958e-05,
      "loss": 0.3588090896606445,
      "memory(GiB)": 137.67,
      "step": 270,
      "token_acc": 0.8657706943523579,
      "train_speed(iter/s)": 0.041379
    },
    {
      "epoch": 0.32201405152224827,
      "grad_norm": 0.21440958976745605,
      "learning_rate": 1.98228241130733e-05,
      "loss": 0.38217363357543943,
      "memory(GiB)": 137.67,
      "step": 275,
      "token_acc": 0.8693404501511701,
      "train_speed(iter/s)": 0.041386
    },
    {
      "epoch": 0.32786885245901637,
      "grad_norm": 0.21196675300598145,
      "learning_rate": 1.98105201047875e-05,
      "loss": 0.35698800086975097,
      "memory(GiB)": 137.67,
      "step": 280,
      "token_acc": 0.8743185598247525,
      "train_speed(iter/s)": 0.041403
    },
    {
      "epoch": 0.3337236533957845,
      "grad_norm": 0.22762241959571838,
      "learning_rate": 1.9797807169244326e-05,
      "loss": 0.3626487016677856,
      "memory(GiB)": 137.67,
      "step": 285,
      "token_acc": 0.8661923737202862,
      "train_speed(iter/s)": 0.041406
    },
    {
      "epoch": 0.3395784543325527,
      "grad_norm": 0.21537438035011292,
      "learning_rate": 1.9784685836351045e-05,
      "loss": 0.37597248554229734,
      "memory(GiB)": 137.67,
      "step": 290,
      "token_acc": 0.8632790864113016,
      "train_speed(iter/s)": 0.041408
    },
    {
      "epoch": 0.34543325526932084,
      "grad_norm": 0.24162794649600983,
      "learning_rate": 1.9771156653037944e-05,
      "loss": 0.3674392461776733,
      "memory(GiB)": 137.67,
      "step": 295,
      "token_acc": 0.86579905677273,
      "train_speed(iter/s)": 0.041418
    },
    {
      "epoch": 0.351288056206089,
      "grad_norm": 0.19127634167671204,
      "learning_rate": 1.975722018323556e-05,
      "loss": 0.3606871604919434,
      "memory(GiB)": 137.67,
      "step": 300,
      "token_acc": 0.8730913571244476,
      "train_speed(iter/s)": 0.041416
    },
    {
      "epoch": 0.35714285714285715,
      "grad_norm": 0.21248631179332733,
      "learning_rate": 1.974287700785116e-05,
      "loss": 0.3568113327026367,
      "memory(GiB)": 137.67,
      "step": 305,
      "token_acc": 0.8697051358380598,
      "train_speed(iter/s)": 0.041425
    },
    {
      "epoch": 0.3629976580796253,
      "grad_norm": 0.20225107669830322,
      "learning_rate": 1.9728127724744516e-05,
      "loss": 0.3483549118041992,
      "memory(GiB)": 137.67,
      "step": 310,
      "token_acc": 0.8697423969369493,
      "train_speed(iter/s)": 0.041425
    },
    {
      "epoch": 0.36885245901639346,
      "grad_norm": 0.2230818122625351,
      "learning_rate": 1.9712972948703006e-05,
      "loss": 0.36976261138916017,
      "memory(GiB)": 137.67,
      "step": 315,
      "token_acc": 0.8751112598082228,
      "train_speed(iter/s)": 0.04143
    },
    {
      "epoch": 0.3747072599531616,
      "grad_norm": 0.1945132613182068,
      "learning_rate": 1.9697413311415967e-05,
      "loss": 0.364810585975647,
      "memory(GiB)": 137.67,
      "step": 320,
      "token_acc": 0.8484778468167483,
      "train_speed(iter/s)": 0.041435
    },
    {
      "epoch": 0.3805620608899297,
      "grad_norm": 0.19989554584026337,
      "learning_rate": 1.9681449461448386e-05,
      "loss": 0.3616858959197998,
      "memory(GiB)": 137.67,
      "step": 325,
      "token_acc": 0.8718356506795814,
      "train_speed(iter/s)": 0.041435
    },
    {
      "epoch": 0.3864168618266979,
      "grad_norm": 0.2084866315126419,
      "learning_rate": 1.9665082064213856e-05,
      "loss": 0.36598567962646483,
      "memory(GiB)": 137.67,
      "step": 330,
      "token_acc": 0.8664227187552337,
      "train_speed(iter/s)": 0.041441
    },
    {
      "epoch": 0.39227166276346603,
      "grad_norm": 0.20807960629463196,
      "learning_rate": 1.9648311801946823e-05,
      "loss": 0.3633120059967041,
      "memory(GiB)": 137.67,
      "step": 335,
      "token_acc": 0.8659399461174416,
      "train_speed(iter/s)": 0.041448
    },
    {
      "epoch": 0.3981264637002342,
      "grad_norm": 0.21306882798671722,
      "learning_rate": 1.9631139373674188e-05,
      "loss": 0.36129164695739746,
      "memory(GiB)": 137.67,
      "step": 340,
      "token_acc": 0.8666773452933952,
      "train_speed(iter/s)": 0.04145
    },
    {
      "epoch": 0.40398126463700235,
      "grad_norm": 0.21947889029979706,
      "learning_rate": 1.9613565495186126e-05,
      "loss": 0.35186495780944826,
      "memory(GiB)": 137.67,
      "step": 345,
      "token_acc": 0.8666396689403815,
      "train_speed(iter/s)": 0.041463
    },
    {
      "epoch": 0.4098360655737705,
      "grad_norm": 0.2155865728855133,
      "learning_rate": 1.9595590899006288e-05,
      "loss": 0.3684532880783081,
      "memory(GiB)": 137.67,
      "step": 350,
      "token_acc": 0.8713802951875973,
      "train_speed(iter/s)": 0.041462
    },
    {
      "epoch": 0.41569086651053866,
      "grad_norm": 0.2150585651397705,
      "learning_rate": 1.957721633436124e-05,
      "loss": 0.3669363260269165,
      "memory(GiB)": 137.67,
      "step": 355,
      "token_acc": 0.8683417743625568,
      "train_speed(iter/s)": 0.041459
    },
    {
      "epoch": 0.4215456674473068,
      "grad_norm": 0.22773627936840057,
      "learning_rate": 1.9558442567149244e-05,
      "loss": 0.36423306465148925,
      "memory(GiB)": 137.67,
      "step": 360,
      "token_acc": 0.8815313637998826,
      "train_speed(iter/s)": 0.041467
    },
    {
      "epoch": 0.4274004683840749,
      "grad_norm": 0.19997937977313995,
      "learning_rate": 1.953927037990834e-05,
      "loss": 0.3707897186279297,
      "memory(GiB)": 137.67,
      "step": 365,
      "token_acc": 0.8580402286389447,
      "train_speed(iter/s)": 0.041471
    },
    {
      "epoch": 0.4332552693208431,
      "grad_norm": 0.21174229681491852,
      "learning_rate": 1.9519700571783718e-05,
      "loss": 0.3715445280075073,
      "memory(GiB)": 137.67,
      "step": 370,
      "token_acc": 0.873243385426675,
      "train_speed(iter/s)": 0.041468
    },
    {
      "epoch": 0.43911007025761123,
      "grad_norm": 0.2164727747440338,
      "learning_rate": 1.9499733958494405e-05,
      "loss": 0.36826701164245607,
      "memory(GiB)": 137.67,
      "step": 375,
      "token_acc": 0.8624453058192736,
      "train_speed(iter/s)": 0.041471
    },
    {
      "epoch": 0.4449648711943794,
      "grad_norm": 0.2175064980983734,
      "learning_rate": 1.947937137229928e-05,
      "loss": 0.3610344648361206,
      "memory(GiB)": 137.67,
      "step": 380,
      "token_acc": 0.8791143721842437,
      "train_speed(iter/s)": 0.041474
    },
    {
      "epoch": 0.45081967213114754,
      "grad_norm": 0.21257779002189636,
      "learning_rate": 1.9458613661962366e-05,
      "loss": 0.36273534297943116,
      "memory(GiB)": 137.67,
      "step": 385,
      "token_acc": 0.8811885856547406,
      "train_speed(iter/s)": 0.041479
    },
    {
      "epoch": 0.4566744730679157,
      "grad_norm": 0.2007063329219818,
      "learning_rate": 1.943746169271746e-05,
      "loss": 0.36213395595550535,
      "memory(GiB)": 137.67,
      "step": 390,
      "token_acc": 0.8793212957081934,
      "train_speed(iter/s)": 0.041474
    },
    {
      "epoch": 0.46252927400468385,
      "grad_norm": 0.1982836127281189,
      "learning_rate": 1.941591634623206e-05,
      "loss": 0.3674773693084717,
      "memory(GiB)": 137.67,
      "step": 395,
      "token_acc": 0.8714787014744528,
      "train_speed(iter/s)": 0.04148
    },
    {
      "epoch": 0.468384074941452,
      "grad_norm": 0.21029749512672424,
      "learning_rate": 1.9393978520570638e-05,
      "loss": 0.35383853912353513,
      "memory(GiB)": 137.67,
      "step": 400,
      "token_acc": 0.8725135029354207,
      "train_speed(iter/s)": 0.041493
    },
    {
      "epoch": 0.47423887587822017,
      "grad_norm": 0.2057942897081375,
      "learning_rate": 1.9371649130157166e-05,
      "loss": 0.35016608238220215,
      "memory(GiB)": 137.67,
      "step": 405,
      "token_acc": 0.8716170696781026,
      "train_speed(iter/s)": 0.041495
    },
    {
      "epoch": 0.48009367681498827,
      "grad_norm": 0.21962089836597443,
      "learning_rate": 1.9348929105737044e-05,
      "loss": 0.3551772117614746,
      "memory(GiB)": 137.67,
      "step": 410,
      "token_acc": 0.8725112535977174,
      "train_speed(iter/s)": 0.041495
    },
    {
      "epoch": 0.4859484777517564,
      "grad_norm": 0.22210708260536194,
      "learning_rate": 1.932581939433827e-05,
      "loss": 0.3688118696212769,
      "memory(GiB)": 137.67,
      "step": 415,
      "token_acc": 0.8727626971050538,
      "train_speed(iter/s)": 0.041496
    },
    {
      "epoch": 0.4918032786885246,
      "grad_norm": 0.21538780629634857,
      "learning_rate": 1.9302320959231997e-05,
      "loss": 0.3600668430328369,
      "memory(GiB)": 137.67,
      "step": 420,
      "token_acc": 0.87065663645922,
      "train_speed(iter/s)": 0.041499
    },
    {
      "epoch": 0.49765807962529274,
      "grad_norm": 0.19987384974956512,
      "learning_rate": 1.927843477989234e-05,
      "loss": 0.3570875644683838,
      "memory(GiB)": 137.67,
      "step": 425,
      "token_acc": 0.8845410461012411,
      "train_speed(iter/s)": 0.041501
    },
    {
      "epoch": 0.5035128805620609,
      "grad_norm": 0.20627401769161224,
      "learning_rate": 1.9254161851955587e-05,
      "loss": 0.36909596920013427,
      "memory(GiB)": 137.67,
      "step": 430,
      "token_acc": 0.8750783836660981,
      "train_speed(iter/s)": 0.041507
    },
    {
      "epoch": 0.509367681498829,
      "grad_norm": 0.22353969514369965,
      "learning_rate": 1.9229503187178694e-05,
      "loss": 0.36271133422851565,
      "memory(GiB)": 137.67,
      "step": 435,
      "token_acc": 0.8696993866195712,
      "train_speed(iter/s)": 0.04151
    },
    {
      "epoch": 0.5152224824355972,
      "grad_norm": 0.20142175257205963,
      "learning_rate": 1.920445981339708e-05,
      "loss": 0.3614756345748901,
      "memory(GiB)": 137.67,
      "step": 440,
      "token_acc": 0.8678934891256075,
      "train_speed(iter/s)": 0.041514
    },
    {
      "epoch": 0.5210772833723654,
      "grad_norm": 0.2189430445432663,
      "learning_rate": 1.9179032774481822e-05,
      "loss": 0.3589394330978394,
      "memory(GiB)": 137.67,
      "step": 445,
      "token_acc": 0.8754360673743595,
      "train_speed(iter/s)": 0.04152
    },
    {
      "epoch": 0.5269320843091335,
      "grad_norm": 0.20788422226905823,
      "learning_rate": 1.9153223130296125e-05,
      "loss": 0.3571774005889893,
      "memory(GiB)": 137.67,
      "step": 450,
      "token_acc": 0.8775248547087467,
      "train_speed(iter/s)": 0.041526
    },
    {
      "epoch": 0.5327868852459017,
      "grad_norm": 0.19941285252571106,
      "learning_rate": 1.9127031956651153e-05,
      "loss": 0.36058688163757324,
      "memory(GiB)": 137.67,
      "step": 455,
      "token_acc": 0.8748390868215994,
      "train_speed(iter/s)": 0.041528
    },
    {
      "epoch": 0.5386416861826698,
      "grad_norm": 0.20794501900672913,
      "learning_rate": 1.9100460345261175e-05,
      "loss": 0.37292046546936036,
      "memory(GiB)": 137.67,
      "step": 460,
      "token_acc": 0.8686192757401499,
      "train_speed(iter/s)": 0.04152
    },
    {
      "epoch": 0.544496487119438,
      "grad_norm": 0.21598728001117706,
      "learning_rate": 1.9073509403698062e-05,
      "loss": 0.3684291124343872,
      "memory(GiB)": 137.67,
      "step": 465,
      "token_acc": 0.8756676919995869,
      "train_speed(iter/s)": 0.041523
    },
    {
      "epoch": 0.550351288056206,
      "grad_norm": 0.21292956173419952,
      "learning_rate": 1.9046180255345142e-05,
      "loss": 0.3640902042388916,
      "memory(GiB)": 137.67,
      "step": 470,
      "token_acc": 0.8750558298801518,
      "train_speed(iter/s)": 0.041525
    },
    {
      "epoch": 0.5562060889929742,
      "grad_norm": 0.21117296814918518,
      "learning_rate": 1.9018474039350342e-05,
      "loss": 0.3569709062576294,
      "memory(GiB)": 137.67,
      "step": 475,
      "token_acc": 0.8744779663053135,
      "train_speed(iter/s)": 0.041525
    },
    {
      "epoch": 0.5620608899297423,
      "grad_norm": 0.20366835594177246,
      "learning_rate": 1.899039191057872e-05,
      "loss": 0.35825061798095703,
      "memory(GiB)": 137.67,
      "step": 480,
      "token_acc": 0.8689726123486041,
      "train_speed(iter/s)": 0.041527
    },
    {
      "epoch": 0.5679156908665105,
      "grad_norm": 0.1856691688299179,
      "learning_rate": 1.8961935039564338e-05,
      "loss": 0.35746235847473146,
      "memory(GiB)": 137.67,
      "step": 485,
      "token_acc": 0.8688354549740689,
      "train_speed(iter/s)": 0.041532
    },
    {
      "epoch": 0.5737704918032787,
      "grad_norm": 0.23608598113059998,
      "learning_rate": 1.8933104612461454e-05,
      "loss": 0.35999622344970705,
      "memory(GiB)": 137.67,
      "step": 490,
      "token_acc": 0.8696445021552469,
      "train_speed(iter/s)": 0.041533
    },
    {
      "epoch": 0.5796252927400468,
      "grad_norm": 0.2125530242919922,
      "learning_rate": 1.8903901830995093e-05,
      "loss": 0.3631314754486084,
      "memory(GiB)": 137.67,
      "step": 495,
      "token_acc": 0.8666599882919743,
      "train_speed(iter/s)": 0.041531
    },
    {
      "epoch": 0.585480093676815,
      "grad_norm": 0.20335227251052856,
      "learning_rate": 1.8874327912410945e-05,
      "loss": 0.37455101013183595,
      "memory(GiB)": 137.67,
      "step": 500,
      "token_acc": 0.8691201544556442,
      "train_speed(iter/s)": 0.041538
    },
    {
      "epoch": 0.5913348946135831,
      "grad_norm": 0.2046995759010315,
      "learning_rate": 1.884438408942463e-05,
      "loss": 0.361937952041626,
      "memory(GiB)": 137.67,
      "step": 505,
      "token_acc": 0.8581575277197544,
      "train_speed(iter/s)": 0.041539
    },
    {
      "epoch": 0.5971896955503513,
      "grad_norm": 0.17991533875465393,
      "learning_rate": 1.881407161017033e-05,
      "loss": 0.35659379959106446,
      "memory(GiB)": 137.67,
      "step": 510,
      "token_acc": 0.8789336760280843,
      "train_speed(iter/s)": 0.041545
    },
    {
      "epoch": 0.6030444964871194,
      "grad_norm": 0.24344618618488312,
      "learning_rate": 1.8783391738148738e-05,
      "loss": 0.35185072422027586,
      "memory(GiB)": 137.67,
      "step": 515,
      "token_acc": 0.8730951113338136,
      "train_speed(iter/s)": 0.04155
    },
    {
      "epoch": 0.6088992974238876,
      "grad_norm": 0.21754887700080872,
      "learning_rate": 1.875234575217441e-05,
      "loss": 0.3508215665817261,
      "memory(GiB)": 137.67,
      "step": 520,
      "token_acc": 0.872153412139793,
      "train_speed(iter/s)": 0.041554
    },
    {
      "epoch": 0.6147540983606558,
      "grad_norm": 0.18687933683395386,
      "learning_rate": 1.8720934946322466e-05,
      "loss": 0.3653162240982056,
      "memory(GiB)": 137.67,
      "step": 525,
      "token_acc": 0.8658395285187296,
      "train_speed(iter/s)": 0.041556
    },
    {
      "epoch": 0.6206088992974239,
      "grad_norm": 0.1791500300168991,
      "learning_rate": 1.8689160629874622e-05,
      "loss": 0.3357256889343262,
      "memory(GiB)": 137.67,
      "step": 530,
      "token_acc": 0.8864503516899346,
      "train_speed(iter/s)": 0.041553
    },
    {
      "epoch": 0.6264637002341921,
      "grad_norm": 0.18553608655929565,
      "learning_rate": 1.865702412726465e-05,
      "loss": 0.34752044677734373,
      "memory(GiB)": 137.67,
      "step": 535,
      "token_acc": 0.882398003852215,
      "train_speed(iter/s)": 0.041558
    },
    {
      "epoch": 0.6323185011709602,
      "grad_norm": 0.19252535700798035,
      "learning_rate": 1.8624526778023142e-05,
      "loss": 0.3493391513824463,
      "memory(GiB)": 137.67,
      "step": 540,
      "token_acc": 0.8799156751797872,
      "train_speed(iter/s)": 0.04156
    },
    {
      "epoch": 0.6381733021077284,
      "grad_norm": 0.1979398876428604,
      "learning_rate": 1.85916699367217e-05,
      "loss": 0.35185253620147705,
      "memory(GiB)": 137.67,
      "step": 545,
      "token_acc": 0.8728044652187243,
      "train_speed(iter/s)": 0.041561
    },
    {
      "epoch": 0.6440281030444965,
      "grad_norm": 0.19005604088306427,
      "learning_rate": 1.855845497291646e-05,
      "loss": 0.3633576393127441,
      "memory(GiB)": 137.67,
      "step": 550,
      "token_acc": 0.8699871784073149,
      "train_speed(iter/s)": 0.041564
    },
    {
      "epoch": 0.6498829039812647,
      "grad_norm": 0.1815745234489441,
      "learning_rate": 1.8524883271091004e-05,
      "loss": 0.35262117385864256,
      "memory(GiB)": 137.67,
      "step": 555,
      "token_acc": 0.8783439310264622,
      "train_speed(iter/s)": 0.041562
    },
    {
      "epoch": 0.6557377049180327,
      "grad_norm": 0.17770066857337952,
      "learning_rate": 1.8490956230598668e-05,
      "loss": 0.3713988780975342,
      "memory(GiB)": 137.67,
      "step": 560,
      "token_acc": 0.8711786567892583,
      "train_speed(iter/s)": 0.041563
    },
    {
      "epoch": 0.6615925058548009,
      "grad_norm": 0.19120706617832184,
      "learning_rate": 1.8456675265604183e-05,
      "loss": 0.35135421752929685,
      "memory(GiB)": 137.67,
      "step": 565,
      "token_acc": 0.8704644071404868,
      "train_speed(iter/s)": 0.041568
    },
    {
      "epoch": 0.667447306791569,
      "grad_norm": 0.22995422780513763,
      "learning_rate": 1.842204180502476e-05,
      "loss": 0.3541764974594116,
      "memory(GiB)": 137.67,
      "step": 570,
      "token_acc": 0.8800552885370527,
      "train_speed(iter/s)": 0.04157
    },
    {
      "epoch": 0.6733021077283372,
      "grad_norm": 0.23910608887672424,
      "learning_rate": 1.8387057292470517e-05,
      "loss": 0.3688697576522827,
      "memory(GiB)": 137.67,
      "step": 575,
      "token_acc": 0.8699386694063074,
      "train_speed(iter/s)": 0.041571
    },
    {
      "epoch": 0.6791569086651054,
      "grad_norm": 0.18881316483020782,
      "learning_rate": 1.8351723186184295e-05,
      "loss": 0.358310866355896,
      "memory(GiB)": 137.67,
      "step": 580,
      "token_acc": 0.861880756666604,
      "train_speed(iter/s)": 0.041574
    },
    {
      "epoch": 0.6850117096018735,
      "grad_norm": 0.19772037863731384,
      "learning_rate": 1.8316040958980896e-05,
      "loss": 0.3566863536834717,
      "memory(GiB)": 137.67,
      "step": 585,
      "token_acc": 0.8841636264650852,
      "train_speed(iter/s)": 0.041578
    },
    {
      "epoch": 0.6908665105386417,
      "grad_norm": 0.20680150389671326,
      "learning_rate": 1.828001209818567e-05,
      "loss": 0.37308592796325685,
      "memory(GiB)": 137.67,
      "step": 590,
      "token_acc": 0.8693373139559628,
      "train_speed(iter/s)": 0.041581
    },
    {
      "epoch": 0.6967213114754098,
      "grad_norm": 0.21996839344501495,
      "learning_rate": 1.8243638105572547e-05,
      "loss": 0.3568426132202148,
      "memory(GiB)": 137.67,
      "step": 595,
      "token_acc": 0.8781027202445839,
      "train_speed(iter/s)": 0.041584
    },
    {
      "epoch": 0.702576112412178,
      "grad_norm": 0.19068636000156403,
      "learning_rate": 1.82069204973014e-05,
      "loss": 0.3520241975784302,
      "memory(GiB)": 137.67,
      "step": 600,
      "token_acc": 0.8848490938723728,
      "train_speed(iter/s)": 0.041592
    },
    {
      "epoch": 0.7084309133489461,
      "grad_norm": 0.19711260497570038,
      "learning_rate": 1.816986080385489e-05,
      "loss": 0.3704382419586182,
      "memory(GiB)": 137.67,
      "step": 605,
      "token_acc": 0.8542210685487001,
      "train_speed(iter/s)": 0.041592
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 0.2009887397289276,
      "learning_rate": 1.813246056997465e-05,
      "loss": 0.35552153587341306,
      "memory(GiB)": 137.67,
      "step": 610,
      "token_acc": 0.8681636421482087,
      "train_speed(iter/s)": 0.041595
    },
    {
      "epoch": 0.7201405152224825,
      "grad_norm": 0.2012893706560135,
      "learning_rate": 1.809472135459688e-05,
      "loss": 0.3568307399749756,
      "memory(GiB)": 137.67,
      "step": 615,
      "token_acc": 0.8715069766273564,
      "train_speed(iter/s)": 0.041596
    },
    {
      "epoch": 0.7259953161592506,
      "grad_norm": 0.19377882778644562,
      "learning_rate": 1.8056644730787412e-05,
      "loss": 0.3658033847808838,
      "memory(GiB)": 137.67,
      "step": 620,
      "token_acc": 0.8766388014057431,
      "train_speed(iter/s)": 0.041603
    },
    {
      "epoch": 0.7318501170960188,
      "grad_norm": 0.21672694385051727,
      "learning_rate": 1.8018232285676092e-05,
      "loss": 0.34650683403015137,
      "memory(GiB)": 137.67,
      "step": 625,
      "token_acc": 0.8730951833381114,
      "train_speed(iter/s)": 0.041609
    },
    {
      "epoch": 0.7377049180327869,
      "grad_norm": 0.20295600593090057,
      "learning_rate": 1.797948562039066e-05,
      "loss": 0.36364593505859377,
      "memory(GiB)": 137.67,
      "step": 630,
      "token_acc": 0.8673425158178014,
      "train_speed(iter/s)": 0.041604
    },
    {
      "epoch": 0.7435597189695551,
      "grad_norm": 0.20888152718544006,
      "learning_rate": 1.7940406349989987e-05,
      "loss": 0.3600362777709961,
      "memory(GiB)": 137.67,
      "step": 635,
      "token_acc": 0.8697917646394914,
      "train_speed(iter/s)": 0.04161
    },
    {
      "epoch": 0.7494145199063232,
      "grad_norm": 0.18725119531154633,
      "learning_rate": 1.7900996103396772e-05,
      "loss": 0.3525946617126465,
      "memory(GiB)": 137.67,
      "step": 640,
      "token_acc": 0.8778969516256544,
      "train_speed(iter/s)": 0.04161
    },
    {
      "epoch": 0.7552693208430913,
      "grad_norm": 0.2023143470287323,
      "learning_rate": 1.7861256523329634e-05,
      "loss": 0.35059380531311035,
      "memory(GiB)": 137.67,
      "step": 645,
      "token_acc": 0.867270463741052,
      "train_speed(iter/s)": 0.041608
    },
    {
      "epoch": 0.7611241217798594,
      "grad_norm": 0.18495850265026093,
      "learning_rate": 1.7821189266234647e-05,
      "loss": 0.35591151714324953,
      "memory(GiB)": 137.67,
      "step": 650,
      "token_acc": 0.8691064057960171,
      "train_speed(iter/s)": 0.041607
    },
    {
      "epoch": 0.7669789227166276,
      "grad_norm": 0.19239366054534912,
      "learning_rate": 1.7780796002216285e-05,
      "loss": 0.3489703893661499,
      "memory(GiB)": 137.67,
      "step": 655,
      "token_acc": 0.8661729229440642,
      "train_speed(iter/s)": 0.041609
    },
    {
      "epoch": 0.7728337236533958,
      "grad_norm": 0.19033724069595337,
      "learning_rate": 1.7740078414967817e-05,
      "loss": 0.35645670890808107,
      "memory(GiB)": 137.67,
      "step": 660,
      "token_acc": 0.8801652115008279,
      "train_speed(iter/s)": 0.041611
    },
    {
      "epoch": 0.7786885245901639,
      "grad_norm": 0.1858055591583252,
      "learning_rate": 1.7699038201701132e-05,
      "loss": 0.3495974063873291,
      "memory(GiB)": 137.67,
      "step": 665,
      "token_acc": 0.86732774248516,
      "train_speed(iter/s)": 0.041614
    },
    {
      "epoch": 0.7845433255269321,
      "grad_norm": 0.19249401986598969,
      "learning_rate": 1.7657677073075968e-05,
      "loss": 0.35628108978271483,
      "memory(GiB)": 137.67,
      "step": 670,
      "token_acc": 0.8711122587710429,
      "train_speed(iter/s)": 0.041616
    },
    {
      "epoch": 0.7903981264637002,
      "grad_norm": 0.1897304505109787,
      "learning_rate": 1.761599675312864e-05,
      "loss": 0.3588160514831543,
      "memory(GiB)": 137.67,
      "step": 675,
      "token_acc": 0.8833087010138474,
      "train_speed(iter/s)": 0.041616
    },
    {
      "epoch": 0.7962529274004684,
      "grad_norm": 0.19034340977668762,
      "learning_rate": 1.7573998979200163e-05,
      "loss": 0.3528533935546875,
      "memory(GiB)": 137.67,
      "step": 680,
      "token_acc": 0.873974659902577,
      "train_speed(iter/s)": 0.04162
    },
    {
      "epoch": 0.8021077283372365,
      "grad_norm": 0.17828524112701416,
      "learning_rate": 1.753168550186383e-05,
      "loss": 0.36130833625793457,
      "memory(GiB)": 137.67,
      "step": 685,
      "token_acc": 0.8767166579575643,
      "train_speed(iter/s)": 0.041622
    },
    {
      "epoch": 0.8079625292740047,
      "grad_norm": 0.18225735425949097,
      "learning_rate": 1.7489058084852247e-05,
      "loss": 0.3559986114501953,
      "memory(GiB)": 137.67,
      "step": 690,
      "token_acc": 0.8664611837818874,
      "train_speed(iter/s)": 0.041619
    },
    {
      "epoch": 0.8138173302107728,
      "grad_norm": 0.17824020981788635,
      "learning_rate": 1.744611850498383e-05,
      "loss": 0.3519934415817261,
      "memory(GiB)": 137.67,
      "step": 695,
      "token_acc": 0.8767726421318924,
      "train_speed(iter/s)": 0.04162
    },
    {
      "epoch": 0.819672131147541,
      "grad_norm": 0.19619260728359222,
      "learning_rate": 1.7402868552088724e-05,
      "loss": 0.34758720397949217,
      "memory(GiB)": 137.67,
      "step": 700,
      "token_acc": 0.8710738168196693,
      "train_speed(iter/s)": 0.041621
    },
    {
      "epoch": 0.8255269320843092,
      "grad_norm": 0.20193175971508026,
      "learning_rate": 1.73593100289342e-05,
      "loss": 0.3554750919342041,
      "memory(GiB)": 137.67,
      "step": 705,
      "token_acc": 0.8680475894967122,
      "train_speed(iter/s)": 0.041625
    },
    {
      "epoch": 0.8313817330210773,
      "grad_norm": 0.17672231793403625,
      "learning_rate": 1.7315444751149533e-05,
      "loss": 0.3531287670135498,
      "memory(GiB)": 137.67,
      "step": 710,
      "token_acc": 0.8739113086739942,
      "train_speed(iter/s)": 0.041629
    },
    {
      "epoch": 0.8372365339578455,
      "grad_norm": 0.18640753626823425,
      "learning_rate": 1.727127454715029e-05,
      "loss": 0.3531001329421997,
      "memory(GiB)": 137.67,
      "step": 715,
      "token_acc": 0.8807271048387348,
      "train_speed(iter/s)": 0.041632
    },
    {
      "epoch": 0.8430913348946136,
      "grad_norm": 0.18654407560825348,
      "learning_rate": 1.722680125806214e-05,
      "loss": 0.3535622119903564,
      "memory(GiB)": 137.67,
      "step": 720,
      "token_acc": 0.8664340845361018,
      "train_speed(iter/s)": 0.041633
    },
    {
      "epoch": 0.8489461358313818,
      "grad_norm": 0.19616912305355072,
      "learning_rate": 1.71820267376441e-05,
      "loss": 0.357543420791626,
      "memory(GiB)": 137.67,
      "step": 725,
      "token_acc": 0.8723300758960031,
      "train_speed(iter/s)": 0.041635
    },
    {
      "epoch": 0.8548009367681498,
      "grad_norm": 0.1865251064300537,
      "learning_rate": 1.7136952852211274e-05,
      "loss": 0.36123013496398926,
      "memory(GiB)": 137.67,
      "step": 730,
      "token_acc": 0.8610691821941981,
      "train_speed(iter/s)": 0.041638
    },
    {
      "epoch": 0.860655737704918,
      "grad_norm": 0.1886809915304184,
      "learning_rate": 1.7091581480557057e-05,
      "loss": 0.34960460662841797,
      "memory(GiB)": 137.67,
      "step": 735,
      "token_acc": 0.8703787498166635,
      "train_speed(iter/s)": 0.041639
    },
    {
      "epoch": 0.8665105386416861,
      "grad_norm": 0.19691921770572662,
      "learning_rate": 1.7045914513874815e-05,
      "loss": 0.3618565320968628,
      "memory(GiB)": 137.67,
      "step": 740,
      "token_acc": 0.8702042368549021,
      "train_speed(iter/s)": 0.041645
    },
    {
      "epoch": 0.8723653395784543,
      "grad_norm": 0.18920762836933136,
      "learning_rate": 1.699995385567907e-05,
      "loss": 0.3643482685089111,
      "memory(GiB)": 137.67,
      "step": 745,
      "token_acc": 0.8619865320910651,
      "train_speed(iter/s)": 0.041651
    },
    {
      "epoch": 0.8782201405152225,
      "grad_norm": 0.19481435418128967,
      "learning_rate": 1.695370142172614e-05,
      "loss": 0.3560521602630615,
      "memory(GiB)": 137.67,
      "step": 750,
      "token_acc": 0.8686031511447322,
      "train_speed(iter/s)": 0.041651
    },
    {
      "epoch": 0.8840749414519906,
      "grad_norm": 0.19207534193992615,
      "learning_rate": 1.690715913993429e-05,
      "loss": 0.3591322422027588,
      "memory(GiB)": 137.67,
      "step": 755,
      "token_acc": 0.8719703155846309,
      "train_speed(iter/s)": 0.041652
    },
    {
      "epoch": 0.8899297423887588,
      "grad_norm": 0.20057600736618042,
      "learning_rate": 1.6860328950303392e-05,
      "loss": 0.3394715070724487,
      "memory(GiB)": 137.67,
      "step": 760,
      "token_acc": 0.8781381296322522,
      "train_speed(iter/s)": 0.041655
    },
    {
      "epoch": 0.8957845433255269,
      "grad_norm": 0.19081991910934448,
      "learning_rate": 1.6813212804834033e-05,
      "loss": 0.3552083015441895,
      "memory(GiB)": 137.67,
      "step": 765,
      "token_acc": 0.8649747738343772,
      "train_speed(iter/s)": 0.041656
    },
    {
      "epoch": 0.9016393442622951,
      "grad_norm": 0.17996545135974884,
      "learning_rate": 1.676581266744615e-05,
      "loss": 0.3466797828674316,
      "memory(GiB)": 137.67,
      "step": 770,
      "token_acc": 0.8719778029670782,
      "train_speed(iter/s)": 0.041659
    },
    {
      "epoch": 0.9074941451990632,
      "grad_norm": 0.18470925092697144,
      "learning_rate": 1.6718130513897207e-05,
      "loss": 0.34652736186981203,
      "memory(GiB)": 137.67,
      "step": 775,
      "token_acc": 0.8761688115825458,
      "train_speed(iter/s)": 0.041661
    },
    {
      "epoch": 0.9133489461358314,
      "grad_norm": 0.1838730424642563,
      "learning_rate": 1.667016833169979e-05,
      "loss": 0.3616307258605957,
      "memory(GiB)": 137.67,
      "step": 780,
      "token_acc": 0.8749988214255409,
      "train_speed(iter/s)": 0.041664
    },
    {
      "epoch": 0.9192037470725996,
      "grad_norm": 0.1882750242948532,
      "learning_rate": 1.6621928120038806e-05,
      "loss": 0.35453338623046876,
      "memory(GiB)": 137.67,
      "step": 785,
      "token_acc": 0.8650788191817312,
      "train_speed(iter/s)": 0.041666
    },
    {
      "epoch": 0.9250585480093677,
      "grad_norm": 0.18011753261089325,
      "learning_rate": 1.657341188968811e-05,
      "loss": 0.3467398166656494,
      "memory(GiB)": 137.67,
      "step": 790,
      "token_acc": 0.8665571597898215,
      "train_speed(iter/s)": 0.041668
    },
    {
      "epoch": 0.9309133489461359,
      "grad_norm": 0.1889754831790924,
      "learning_rate": 1.6524621662926733e-05,
      "loss": 0.34622554779052733,
      "memory(GiB)": 137.67,
      "step": 795,
      "token_acc": 0.8836526658483215,
      "train_speed(iter/s)": 0.041671
    },
    {
      "epoch": 0.936768149882904,
      "grad_norm": 0.17811700701713562,
      "learning_rate": 1.6475559473454558e-05,
      "loss": 0.35440659523010254,
      "memory(GiB)": 137.67,
      "step": 800,
      "token_acc": 0.8802437890929187,
      "train_speed(iter/s)": 0.041672
    },
    {
      "epoch": 0.9426229508196722,
      "grad_norm": 0.19011390209197998,
      "learning_rate": 1.6426227366307563e-05,
      "loss": 0.3580695629119873,
      "memory(GiB)": 137.67,
      "step": 805,
      "token_acc": 0.8808476204925909,
      "train_speed(iter/s)": 0.04167
    },
    {
      "epoch": 0.9484777517564403,
      "grad_norm": 0.18688787519931793,
      "learning_rate": 1.6376627397772576e-05,
      "loss": 0.35615901947021483,
      "memory(GiB)": 137.67,
      "step": 810,
      "token_acc": 0.8656951211518713,
      "train_speed(iter/s)": 0.04167
    },
    {
      "epoch": 0.9543325526932084,
      "grad_norm": 0.19855861365795135,
      "learning_rate": 1.6326761635301572e-05,
      "loss": 0.3505072116851807,
      "memory(GiB)": 137.67,
      "step": 815,
      "token_acc": 0.8734695802546769,
      "train_speed(iter/s)": 0.041672
    },
    {
      "epoch": 0.9601873536299765,
      "grad_norm": 0.18500158190727234,
      "learning_rate": 1.6276632157425475e-05,
      "loss": 0.35810859203338624,
      "memory(GiB)": 137.67,
      "step": 820,
      "token_acc": 0.8688002942074786,
      "train_speed(iter/s)": 0.041672
    },
    {
      "epoch": 0.9660421545667447,
      "grad_norm": 0.2135351300239563,
      "learning_rate": 1.6226241053667536e-05,
      "loss": 0.3624737739562988,
      "memory(GiB)": 137.67,
      "step": 825,
      "token_acc": 0.8650754688071645,
      "train_speed(iter/s)": 0.041674
    },
    {
      "epoch": 0.9718969555035128,
      "grad_norm": 0.188192680478096,
      "learning_rate": 1.617559042445625e-05,
      "loss": 0.3624725818634033,
      "memory(GiB)": 137.67,
      "step": 830,
      "token_acc": 0.8755614748176581,
      "train_speed(iter/s)": 0.041674
    },
    {
      "epoch": 0.977751756440281,
      "grad_norm": 0.34307366609573364,
      "learning_rate": 1.6124682381037767e-05,
      "loss": 0.34985201358795165,
      "memory(GiB)": 137.67,
      "step": 835,
      "token_acc": 0.8732973013596538,
      "train_speed(iter/s)": 0.041675
    },
    {
      "epoch": 0.9836065573770492,
      "grad_norm": 0.19902247190475464,
      "learning_rate": 1.607351904538792e-05,
      "loss": 0.3641986846923828,
      "memory(GiB)": 137.67,
      "step": 840,
      "token_acc": 0.8725000467718097,
      "train_speed(iter/s)": 0.041673
    },
    {
      "epoch": 0.9894613583138173,
      "grad_norm": 0.18375855684280396,
      "learning_rate": 1.6022102550123775e-05,
      "loss": 0.3507267951965332,
      "memory(GiB)": 137.67,
      "step": 845,
      "token_acc": 0.868225976538805,
      "train_speed(iter/s)": 0.041674
    },
    {
      "epoch": 0.9953161592505855,
      "grad_norm": 0.19543269276618958,
      "learning_rate": 1.597043503841471e-05,
      "loss": 0.3511422395706177,
      "memory(GiB)": 137.67,
      "step": 850,
      "token_acc": 0.8818226402481499,
      "train_speed(iter/s)": 0.041674
    },
    {
      "epoch": 1.0011709601873535,
      "grad_norm": 0.2594313323497772,
      "learning_rate": 1.5918518663893124e-05,
      "loss": 0.3436767339706421,
      "memory(GiB)": 137.67,
      "step": 855,
      "token_acc": 0.8783253667380914,
      "train_speed(iter/s)": 0.041472
    },
    {
      "epoch": 1.0070257611241218,
      "grad_norm": 0.21433798968791962,
      "learning_rate": 1.5866355590564637e-05,
      "loss": 0.31752333641052244,
      "memory(GiB)": 137.67,
      "step": 860,
      "token_acc": 0.8950932956103179,
      "train_speed(iter/s)": 0.041464
    },
    {
      "epoch": 1.0128805620608898,
      "grad_norm": 0.20641100406646729,
      "learning_rate": 1.5813947992717894e-05,
      "loss": 0.3059502601623535,
      "memory(GiB)": 137.67,
      "step": 865,
      "token_acc": 0.8851299275012688,
      "train_speed(iter/s)": 0.041456
    },
    {
      "epoch": 1.018735362997658,
      "grad_norm": 0.2776026427745819,
      "learning_rate": 1.5761298054833947e-05,
      "loss": 0.31491961479187014,
      "memory(GiB)": 137.67,
      "step": 870,
      "token_acc": 0.8871431849329935,
      "train_speed(iter/s)": 0.041446
    },
    {
      "epoch": 1.0245901639344261,
      "grad_norm": 0.2104882299900055,
      "learning_rate": 1.5708407971495195e-05,
      "loss": 0.3215550422668457,
      "memory(GiB)": 137.67,
      "step": 875,
      "token_acc": 0.8840142068123856,
      "train_speed(iter/s)": 0.041441
    },
    {
      "epoch": 1.0304449648711944,
      "grad_norm": 0.2141922563314438,
      "learning_rate": 1.565527994729389e-05,
      "loss": 0.31157307624816893,
      "memory(GiB)": 137.67,
      "step": 880,
      "token_acc": 0.8925077955478237,
      "train_speed(iter/s)": 0.041435
    },
    {
      "epoch": 1.0362997658079625,
      "grad_norm": 0.19829437136650085,
      "learning_rate": 1.5601916196740283e-05,
      "loss": 0.30809755325317384,
      "memory(GiB)": 137.67,
      "step": 885,
      "token_acc": 0.890301896874165,
      "train_speed(iter/s)": 0.04143
    },
    {
      "epoch": 1.0421545667447307,
      "grad_norm": 0.1938631683588028,
      "learning_rate": 1.5548318944170276e-05,
      "loss": 0.30415992736816405,
      "memory(GiB)": 137.67,
      "step": 890,
      "token_acc": 0.8950597362393585,
      "train_speed(iter/s)": 0.041423
    },
    {
      "epoch": 1.0480093676814988,
      "grad_norm": 0.18822869658470154,
      "learning_rate": 1.5494490423652732e-05,
      "loss": 0.30409889221191405,
      "memory(GiB)": 137.67,
      "step": 895,
      "token_acc": 0.8878764647902749,
      "train_speed(iter/s)": 0.041414
    },
    {
      "epoch": 1.053864168618267,
      "grad_norm": 0.18639546632766724,
      "learning_rate": 1.544043287889635e-05,
      "loss": 0.29631519317626953,
      "memory(GiB)": 137.67,
      "step": 900,
      "token_acc": 0.8972942289498581,
      "train_speed(iter/s)": 0.041408
    },
    {
      "epoch": 1.059718969555035,
      "grad_norm": 0.19313958287239075,
      "learning_rate": 1.538614856315614e-05,
      "loss": 0.3089482307434082,
      "memory(GiB)": 137.67,
      "step": 905,
      "token_acc": 0.8947345206627453,
      "train_speed(iter/s)": 0.041403
    },
    {
      "epoch": 1.0655737704918034,
      "grad_norm": 0.1918047070503235,
      "learning_rate": 1.5331639739139477e-05,
      "loss": 0.30376482009887695,
      "memory(GiB)": 137.67,
      "step": 910,
      "token_acc": 0.878863108904361,
      "train_speed(iter/s)": 0.041394
    },
    {
      "epoch": 1.0714285714285714,
      "grad_norm": 0.17692717909812927,
      "learning_rate": 1.5276908678911837e-05,
      "loss": 0.3011662006378174,
      "memory(GiB)": 137.67,
      "step": 915,
      "token_acc": 0.8932026746024828,
      "train_speed(iter/s)": 0.041388
    },
    {
      "epoch": 1.0772833723653397,
      "grad_norm": 0.1763262152671814,
      "learning_rate": 1.5221957663802043e-05,
      "loss": 0.31141071319580077,
      "memory(GiB)": 137.67,
      "step": 920,
      "token_acc": 0.8920435427389305,
      "train_speed(iter/s)": 0.041376
    },
    {
      "epoch": 1.0831381733021077,
      "grad_norm": 0.1730634868144989,
      "learning_rate": 1.5166788984307204e-05,
      "loss": 0.3161822557449341,
      "memory(GiB)": 137.67,
      "step": 925,
      "token_acc": 0.8866250173014735,
      "train_speed(iter/s)": 0.041367
    },
    {
      "epoch": 1.088992974238876,
      "grad_norm": 0.20834501087665558,
      "learning_rate": 1.5111404939997227e-05,
      "loss": 0.3130020618438721,
      "memory(GiB)": 137.67,
      "step": 930,
      "token_acc": 0.8872231505297611,
      "train_speed(iter/s)": 0.04136
    },
    {
      "epoch": 1.094847775175644,
      "grad_norm": 0.20543096959590912,
      "learning_rate": 1.5055807839418966e-05,
      "loss": 0.29431891441345215,
      "memory(GiB)": 137.67,
      "step": 935,
      "token_acc": 0.8923718607539866,
      "train_speed(iter/s)": 0.041352
    },
    {
      "epoch": 1.100702576112412,
      "grad_norm": 0.1818283647298813,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.31560554504394533,
      "memory(GiB)": 137.67,
      "step": 940,
      "token_acc": 0.8944428660187143,
      "train_speed(iter/s)": 0.041347
    },
    {
      "epoch": 1.1065573770491803,
      "grad_norm": 0.18734754621982574,
      "learning_rate": 1.494398374795204e-05,
      "loss": 0.30426225662231443,
      "memory(GiB)": 137.67,
      "step": 945,
      "token_acc": 0.8848180693302514,
      "train_speed(iter/s)": 0.041343
    },
    {
      "epoch": 1.1124121779859484,
      "grad_norm": 0.19308467209339142,
      "learning_rate": 1.4887761418173947e-05,
      "loss": 0.32167963981628417,
      "memory(GiB)": 137.67,
      "step": 950,
      "token_acc": 0.8939139882185966,
      "train_speed(iter/s)": 0.041337
    },
    {
      "epoch": 1.1182669789227166,
      "grad_norm": 0.2532450258731842,
      "learning_rate": 1.4831335354154444e-05,
      "loss": 0.30830209255218505,
      "memory(GiB)": 137.67,
      "step": 955,
      "token_acc": 0.887962551140468,
      "train_speed(iter/s)": 0.041333
    },
    {
      "epoch": 1.1241217798594847,
      "grad_norm": 0.18927785754203796,
      "learning_rate": 1.4774707907874392e-05,
      "loss": 0.30596270561218264,
      "memory(GiB)": 137.67,
      "step": 960,
      "token_acc": 0.8945483075403462,
      "train_speed(iter/s)": 0.041324
    },
    {
      "epoch": 1.129976580796253,
      "grad_norm": 0.18746164441108704,
      "learning_rate": 1.4717881439708786e-05,
      "loss": 0.3073431491851807,
      "memory(GiB)": 137.67,
      "step": 965,
      "token_acc": 0.8779535897835228,
      "train_speed(iter/s)": 0.041318
    },
    {
      "epoch": 1.135831381733021,
      "grad_norm": 0.19065742194652557,
      "learning_rate": 1.4660858318328348e-05,
      "loss": 0.30925755500793456,
      "memory(GiB)": 137.67,
      "step": 970,
      "token_acc": 0.8771556147038887,
      "train_speed(iter/s)": 0.041311
    },
    {
      "epoch": 1.1416861826697893,
      "grad_norm": 0.19082236289978027,
      "learning_rate": 1.4603640920600813e-05,
      "loss": 0.31507372856140137,
      "memory(GiB)": 137.67,
      "step": 975,
      "token_acc": 0.8741312286488396,
      "train_speed(iter/s)": 0.041305
    },
    {
      "epoch": 1.1475409836065573,
      "grad_norm": 0.18480531871318817,
      "learning_rate": 1.4546231631491827e-05,
      "loss": 0.3110131025314331,
      "memory(GiB)": 137.67,
      "step": 980,
      "token_acc": 0.8829417142215302,
      "train_speed(iter/s)": 0.041296
    },
    {
      "epoch": 1.1533957845433256,
      "grad_norm": 0.17675240337848663,
      "learning_rate": 1.4488632843965573e-05,
      "loss": 0.3039939641952515,
      "memory(GiB)": 137.67,
      "step": 985,
      "token_acc": 0.8738143036386449,
      "train_speed(iter/s)": 0.041289
    },
    {
      "epoch": 1.1592505854800936,
      "grad_norm": 0.19089390337467194,
      "learning_rate": 1.4430846958884995e-05,
      "loss": 0.31295793056488036,
      "memory(GiB)": 137.67,
      "step": 990,
      "token_acc": 0.8817706633869632,
      "train_speed(iter/s)": 0.041282
    },
    {
      "epoch": 1.165105386416862,
      "grad_norm": 0.18563120067119598,
      "learning_rate": 1.4372876384911741e-05,
      "loss": 0.313909912109375,
      "memory(GiB)": 137.67,
      "step": 995,
      "token_acc": 0.8830196916072904,
      "train_speed(iter/s)": 0.041276
    },
    {
      "epoch": 1.17096018735363,
      "grad_norm": 0.21534429490566254,
      "learning_rate": 1.4314723538405752e-05,
      "loss": 0.3197300910949707,
      "memory(GiB)": 137.67,
      "step": 1000,
      "token_acc": 0.8747241787695568,
      "train_speed(iter/s)": 0.041271
    },
    {
      "epoch": 1.1768149882903982,
      "grad_norm": 0.19970309734344482,
      "learning_rate": 1.4256390843324556e-05,
      "loss": 0.3151378154754639,
      "memory(GiB)": 137.67,
      "step": 1005,
      "token_acc": 0.8791438877655459,
      "train_speed(iter/s)": 0.041267
    },
    {
      "epoch": 1.1826697892271663,
      "grad_norm": 0.1895560324192047,
      "learning_rate": 1.4197880731122221e-05,
      "loss": 0.312138032913208,
      "memory(GiB)": 137.67,
      "step": 1010,
      "token_acc": 0.8795711581097576,
      "train_speed(iter/s)": 0.041265
    },
    {
      "epoch": 1.1885245901639343,
      "grad_norm": 0.19073544442653656,
      "learning_rate": 1.4139195640648008e-05,
      "loss": 0.315081787109375,
      "memory(GiB)": 137.67,
      "step": 1015,
      "token_acc": 0.8921242173646963,
      "train_speed(iter/s)": 0.041259
    },
    {
      "epoch": 1.1943793911007026,
      "grad_norm": 0.17704617977142334,
      "learning_rate": 1.4080338018044712e-05,
      "loss": 0.319437837600708,
      "memory(GiB)": 137.67,
      "step": 1020,
      "token_acc": 0.8815218951006631,
      "train_speed(iter/s)": 0.041255
    },
    {
      "epoch": 1.2002341920374708,
      "grad_norm": 0.19636361300945282,
      "learning_rate": 1.4021310316646708e-05,
      "loss": 0.3087984561920166,
      "memory(GiB)": 137.67,
      "step": 1025,
      "token_acc": 0.8875915980726762,
      "train_speed(iter/s)": 0.041249
    },
    {
      "epoch": 1.2060889929742389,
      "grad_norm": 0.185128852725029,
      "learning_rate": 1.3962114996877685e-05,
      "loss": 0.29653804302215575,
      "memory(GiB)": 137.67,
      "step": 1030,
      "token_acc": 0.894042061938463,
      "train_speed(iter/s)": 0.041243
    },
    {
      "epoch": 1.211943793911007,
      "grad_norm": 0.18740731477737427,
      "learning_rate": 1.390275452614808e-05,
      "loss": 0.2996367454528809,
      "memory(GiB)": 137.67,
      "step": 1035,
      "token_acc": 0.8867371770872332,
      "train_speed(iter/s)": 0.041239
    },
    {
      "epoch": 1.2177985948477752,
      "grad_norm": 0.19739095866680145,
      "learning_rate": 1.3843231378752252e-05,
      "loss": 0.3056778907775879,
      "memory(GiB)": 137.67,
      "step": 1040,
      "token_acc": 0.8844194070047138,
      "train_speed(iter/s)": 0.041232
    },
    {
      "epoch": 1.2236533957845432,
      "grad_norm": 0.18625736236572266,
      "learning_rate": 1.3783548035765327e-05,
      "loss": 0.3101504802703857,
      "memory(GiB)": 137.67,
      "step": 1045,
      "token_acc": 0.8895319577252139,
      "train_speed(iter/s)": 0.041228
    },
    {
      "epoch": 1.2295081967213115,
      "grad_norm": 0.19391782581806183,
      "learning_rate": 1.3723706984939783e-05,
      "loss": 0.2983381271362305,
      "memory(GiB)": 137.67,
      "step": 1050,
      "token_acc": 0.8835933444611258,
      "train_speed(iter/s)": 0.041224
    },
    {
      "epoch": 1.2353629976580796,
      "grad_norm": 0.18108582496643066,
      "learning_rate": 1.366371072060177e-05,
      "loss": 0.3086691379547119,
      "memory(GiB)": 137.67,
      "step": 1055,
      "token_acc": 0.8736720857877966,
      "train_speed(iter/s)": 0.041218
    },
    {
      "epoch": 1.2412177985948478,
      "grad_norm": 0.18043167889118195,
      "learning_rate": 1.3603561743547125e-05,
      "loss": 0.30459914207458494,
      "memory(GiB)": 137.67,
      "step": 1060,
      "token_acc": 0.8805453249562779,
      "train_speed(iter/s)": 0.041215
    },
    {
      "epoch": 1.2470725995316159,
      "grad_norm": 0.2246876060962677,
      "learning_rate": 1.3543262560937135e-05,
      "loss": 0.3085703134536743,
      "memory(GiB)": 137.67,
      "step": 1065,
      "token_acc": 0.8846350880261892,
      "train_speed(iter/s)": 0.041212
    },
    {
      "epoch": 1.2529274004683841,
      "grad_norm": 0.19236041605472565,
      "learning_rate": 1.3482815686194033e-05,
      "loss": 0.2960092306137085,
      "memory(GiB)": 137.67,
      "step": 1070,
      "token_acc": 0.8907122097565549,
      "train_speed(iter/s)": 0.041208
    },
    {
      "epoch": 1.2587822014051522,
      "grad_norm": 0.1928793489933014,
      "learning_rate": 1.3422223638896235e-05,
      "loss": 0.3040574073791504,
      "memory(GiB)": 137.67,
      "step": 1075,
      "token_acc": 0.886298144007927,
      "train_speed(iter/s)": 0.041204
    },
    {
      "epoch": 1.2646370023419204,
      "grad_norm": 0.20902785658836365,
      "learning_rate": 1.3361488944673315e-05,
      "loss": 0.31267333030700684,
      "memory(GiB)": 137.67,
      "step": 1080,
      "token_acc": 0.8800496737817911,
      "train_speed(iter/s)": 0.041199
    },
    {
      "epoch": 1.2704918032786885,
      "grad_norm": 0.18985559046268463,
      "learning_rate": 1.3300614135100736e-05,
      "loss": 0.3105930805206299,
      "memory(GiB)": 137.67,
      "step": 1085,
      "token_acc": 0.8869882389382489,
      "train_speed(iter/s)": 0.041194
    },
    {
      "epoch": 1.2763466042154565,
      "grad_norm": 0.17671886086463928,
      "learning_rate": 1.3239601747594319e-05,
      "loss": 0.310105037689209,
      "memory(GiB)": 137.67,
      "step": 1090,
      "token_acc": 0.8870674524554854,
      "train_speed(iter/s)": 0.041187
    },
    {
      "epoch": 1.2822014051522248,
      "grad_norm": 0.17825712263584137,
      "learning_rate": 1.3178454325304472e-05,
      "loss": 0.31207849979400637,
      "memory(GiB)": 137.67,
      "step": 1095,
      "token_acc": 0.876942551728449,
      "train_speed(iter/s)": 0.041183
    },
    {
      "epoch": 1.288056206088993,
      "grad_norm": 0.1821722686290741,
      "learning_rate": 1.3117174417010213e-05,
      "loss": 0.2980069637298584,
      "memory(GiB)": 137.67,
      "step": 1100,
      "token_acc": 0.8805069421513594,
      "train_speed(iter/s)": 0.041179
    },
    {
      "epoch": 1.2939110070257611,
      "grad_norm": 0.18626025319099426,
      "learning_rate": 1.3055764577012892e-05,
      "loss": 0.3255163669586182,
      "memory(GiB)": 137.67,
      "step": 1105,
      "token_acc": 0.8920352101893313,
      "train_speed(iter/s)": 0.041176
    },
    {
      "epoch": 1.2997658079625292,
      "grad_norm": 0.18716710805892944,
      "learning_rate": 1.2994227365029752e-05,
      "loss": 0.30793008804321287,
      "memory(GiB)": 137.67,
      "step": 1110,
      "token_acc": 0.8887493130250451,
      "train_speed(iter/s)": 0.041173
    },
    {
      "epoch": 1.3056206088992974,
      "grad_norm": 0.19421324133872986,
      "learning_rate": 1.2932565346087218e-05,
      "loss": 0.3134599208831787,
      "memory(GiB)": 137.67,
      "step": 1115,
      "token_acc": 0.8847875557218118,
      "train_speed(iter/s)": 0.041168
    },
    {
      "epoch": 1.3114754098360657,
      "grad_norm": 0.18218953907489777,
      "learning_rate": 1.2870781090413991e-05,
      "loss": 0.3120888710021973,
      "memory(GiB)": 137.67,
      "step": 1120,
      "token_acc": 0.8869988305263882,
      "train_speed(iter/s)": 0.041162
    },
    {
      "epoch": 1.3173302107728337,
      "grad_norm": 0.19175498187541962,
      "learning_rate": 1.2808877173333896e-05,
      "loss": 0.30698199272155763,
      "memory(GiB)": 137.67,
      "step": 1125,
      "token_acc": 0.8941062176165803,
      "train_speed(iter/s)": 0.041159
    },
    {
      "epoch": 1.3231850117096018,
      "grad_norm": 0.18965595960617065,
      "learning_rate": 1.2746856175158556e-05,
      "loss": 0.31497323513031006,
      "memory(GiB)": 137.67,
      "step": 1130,
      "token_acc": 0.8871100459606847,
      "train_speed(iter/s)": 0.041157
    },
    {
      "epoch": 1.32903981264637,
      "grad_norm": 0.18627162277698517,
      "learning_rate": 1.2684720681079825e-05,
      "loss": 0.31060152053833007,
      "memory(GiB)": 137.67,
      "step": 1135,
      "token_acc": 0.871316468541155,
      "train_speed(iter/s)": 0.041153
    },
    {
      "epoch": 1.334894613583138,
      "grad_norm": 0.18565431237220764,
      "learning_rate": 1.2622473281062042e-05,
      "loss": 0.31475396156311036,
      "memory(GiB)": 137.67,
      "step": 1140,
      "token_acc": 0.8868342272670575,
      "train_speed(iter/s)": 0.04115
    },
    {
      "epoch": 1.3407494145199064,
      "grad_norm": 0.20739679038524628,
      "learning_rate": 1.256011656973406e-05,
      "loss": 0.32018194198608396,
      "memory(GiB)": 137.67,
      "step": 1145,
      "token_acc": 0.8872068230277186,
      "train_speed(iter/s)": 0.041147
    },
    {
      "epoch": 1.3466042154566744,
      "grad_norm": 0.1901317983865738,
      "learning_rate": 1.2497653146281113e-05,
      "loss": 0.3108601331710815,
      "memory(GiB)": 137.67,
      "step": 1150,
      "token_acc": 0.8855189570357069,
      "train_speed(iter/s)": 0.041141
    },
    {
      "epoch": 1.3524590163934427,
      "grad_norm": 0.16836309432983398,
      "learning_rate": 1.2435085614336459e-05,
      "loss": 0.315748405456543,
      "memory(GiB)": 137.67,
      "step": 1155,
      "token_acc": 0.8928414676966292,
      "train_speed(iter/s)": 0.041138
    },
    {
      "epoch": 1.3583138173302107,
      "grad_norm": 0.18492159247398376,
      "learning_rate": 1.2372416581872857e-05,
      "loss": 0.3051302909851074,
      "memory(GiB)": 137.67,
      "step": 1160,
      "token_acc": 0.8906577988281189,
      "train_speed(iter/s)": 0.041133
    },
    {
      "epoch": 1.364168618266979,
      "grad_norm": 0.17753958702087402,
      "learning_rate": 1.2309648661093878e-05,
      "loss": 0.3092564582824707,
      "memory(GiB)": 137.67,
      "step": 1165,
      "token_acc": 0.8921087343363074,
      "train_speed(iter/s)": 0.041129
    },
    {
      "epoch": 1.370023419203747,
      "grad_norm": 0.18764352798461914,
      "learning_rate": 1.2246784468324993e-05,
      "loss": 0.3163435935974121,
      "memory(GiB)": 137.67,
      "step": 1170,
      "token_acc": 0.8760536792329402,
      "train_speed(iter/s)": 0.041124
    },
    {
      "epoch": 1.3758782201405153,
      "grad_norm": 0.19416891038417816,
      "learning_rate": 1.218382662390454e-05,
      "loss": 0.3042860507965088,
      "memory(GiB)": 137.67,
      "step": 1175,
      "token_acc": 0.875018486527648,
      "train_speed(iter/s)": 0.041121
    },
    {
      "epoch": 1.3817330210772834,
      "grad_norm": 0.18030278384685516,
      "learning_rate": 1.2120777752074492e-05,
      "loss": 0.3132922172546387,
      "memory(GiB)": 137.67,
      "step": 1180,
      "token_acc": 0.8838601600050099,
      "train_speed(iter/s)": 0.041116
    },
    {
      "epoch": 1.3875878220140514,
      "grad_norm": 0.2763387858867645,
      "learning_rate": 1.2057640480871084e-05,
      "loss": 0.3143471240997314,
      "memory(GiB)": 137.67,
      "step": 1185,
      "token_acc": 0.8852224576271186,
      "train_speed(iter/s)": 0.041114
    },
    {
      "epoch": 1.3934426229508197,
      "grad_norm": 0.17999497056007385,
      "learning_rate": 1.1994417442015243e-05,
      "loss": 0.31265532970428467,
      "memory(GiB)": 137.67,
      "step": 1190,
      "token_acc": 0.8907372436335803,
      "train_speed(iter/s)": 0.041112
    },
    {
      "epoch": 1.399297423887588,
      "grad_norm": 0.18372628092765808,
      "learning_rate": 1.193111127080292e-05,
      "loss": 0.30383052825927737,
      "memory(GiB)": 137.67,
      "step": 1195,
      "token_acc": 0.8938835107946411,
      "train_speed(iter/s)": 0.041109
    },
    {
      "epoch": 1.405152224824356,
      "grad_norm": 0.1798890382051468,
      "learning_rate": 1.186772460599523e-05,
      "loss": 0.30336918830871584,
      "memory(GiB)": 137.67,
      "step": 1200,
      "token_acc": 0.891896889446055,
      "train_speed(iter/s)": 0.041105
    },
    {
      "epoch": 1.411007025761124,
      "grad_norm": 0.1862761676311493,
      "learning_rate": 1.1804260089708464e-05,
      "loss": 0.3127150535583496,
      "memory(GiB)": 137.67,
      "step": 1205,
      "token_acc": 0.8781827694454133,
      "train_speed(iter/s)": 0.041099
    },
    {
      "epoch": 1.4168618266978923,
      "grad_norm": 0.1872834414243698,
      "learning_rate": 1.1740720367303958e-05,
      "loss": 0.3076412916183472,
      "memory(GiB)": 137.67,
      "step": 1210,
      "token_acc": 0.8865224656924374,
      "train_speed(iter/s)": 0.041096
    },
    {
      "epoch": 1.4227166276346606,
      "grad_norm": 0.1868448704481125,
      "learning_rate": 1.1677108087277835e-05,
      "loss": 0.3139200210571289,
      "memory(GiB)": 137.67,
      "step": 1215,
      "token_acc": 0.8866469436643504,
      "train_speed(iter/s)": 0.041092
    },
    {
      "epoch": 1.4285714285714286,
      "grad_norm": 0.1959424465894699,
      "learning_rate": 1.1613425901150595e-05,
      "loss": 0.3134448051452637,
      "memory(GiB)": 137.67,
      "step": 1220,
      "token_acc": 0.8883061552452257,
      "train_speed(iter/s)": 0.041088
    },
    {
      "epoch": 1.4344262295081966,
      "grad_norm": 0.1766284704208374,
      "learning_rate": 1.15496764633566e-05,
      "loss": 0.3212412357330322,
      "memory(GiB)": 137.67,
      "step": 1225,
      "token_acc": 0.8780539320458743,
      "train_speed(iter/s)": 0.041084
    },
    {
      "epoch": 1.440281030444965,
      "grad_norm": 0.17711302638053894,
      "learning_rate": 1.1485862431133445e-05,
      "loss": 0.3123058795928955,
      "memory(GiB)": 137.67,
      "step": 1230,
      "token_acc": 0.8900835233492141,
      "train_speed(iter/s)": 0.041082
    },
    {
      "epoch": 1.446135831381733,
      "grad_norm": 0.1747256964445114,
      "learning_rate": 1.1421986464411169e-05,
      "loss": 0.31295697689056395,
      "memory(GiB)": 137.67,
      "step": 1235,
      "token_acc": 0.8767080016888458,
      "train_speed(iter/s)": 0.041075
    },
    {
      "epoch": 1.4519906323185012,
      "grad_norm": 0.18440908193588257,
      "learning_rate": 1.1358051225701404e-05,
      "loss": 0.30406386852264405,
      "memory(GiB)": 137.67,
      "step": 1240,
      "token_acc": 0.8795020947920581,
      "train_speed(iter/s)": 0.041071
    },
    {
      "epoch": 1.4578454332552693,
      "grad_norm": 0.17828240990638733,
      "learning_rate": 1.1294059379986384e-05,
      "loss": 0.3121625900268555,
      "memory(GiB)": 137.67,
      "step": 1245,
      "token_acc": 0.880069535801541,
      "train_speed(iter/s)": 0.041066
    },
    {
      "epoch": 1.4637002341920375,
      "grad_norm": 0.19148212671279907,
      "learning_rate": 1.1230013594607874e-05,
      "loss": 0.31345176696777344,
      "memory(GiB)": 137.67,
      "step": 1250,
      "token_acc": 0.8839757074137398,
      "train_speed(iter/s)": 0.041062
    },
    {
      "epoch": 1.4695550351288056,
      "grad_norm": 0.1828489750623703,
      "learning_rate": 1.1165916539155968e-05,
      "loss": 0.3104730129241943,
      "memory(GiB)": 137.67,
      "step": 1255,
      "token_acc": 0.8880499764055864,
      "train_speed(iter/s)": 0.04106
    },
    {
      "epoch": 1.4754098360655736,
      "grad_norm": 0.17934924364089966,
      "learning_rate": 1.1101770885357843e-05,
      "loss": 0.3066437244415283,
      "memory(GiB)": 137.67,
      "step": 1260,
      "token_acc": 0.8892594538641362,
      "train_speed(iter/s)": 0.041058
    },
    {
      "epoch": 1.481264637002342,
      "grad_norm": 0.16536173224449158,
      "learning_rate": 1.1037579306966365e-05,
      "loss": 0.3071906566619873,
      "memory(GiB)": 137.67,
      "step": 1265,
      "token_acc": 0.8958809106175363,
      "train_speed(iter/s)": 0.041054
    },
    {
      "epoch": 1.4871194379391102,
      "grad_norm": 0.18694446980953217,
      "learning_rate": 1.0973344479648652e-05,
      "loss": 0.3013455867767334,
      "memory(GiB)": 137.67,
      "step": 1270,
      "token_acc": 0.8899813852868301,
      "train_speed(iter/s)": 0.04105
    },
    {
      "epoch": 1.4929742388758782,
      "grad_norm": 0.17580904066562653,
      "learning_rate": 1.0909069080874556e-05,
      "loss": 0.30318174362182615,
      "memory(GiB)": 137.67,
      "step": 1275,
      "token_acc": 0.8817699648607147,
      "train_speed(iter/s)": 0.041047
    },
    {
      "epoch": 1.4988290398126463,
      "grad_norm": 0.18754124641418457,
      "learning_rate": 1.0844755789805042e-05,
      "loss": 0.31064305305480955,
      "memory(GiB)": 137.67,
      "step": 1280,
      "token_acc": 0.8804021416788542,
      "train_speed(iter/s)": 0.041044
    },
    {
      "epoch": 1.5046838407494145,
      "grad_norm": 0.19590285420417786,
      "learning_rate": 1.0780407287180526e-05,
      "loss": 0.3148102045059204,
      "memory(GiB)": 137.67,
      "step": 1285,
      "token_acc": 0.8805457351989244,
      "train_speed(iter/s)": 0.041039
    },
    {
      "epoch": 1.5105386416861828,
      "grad_norm": 0.19473980367183685,
      "learning_rate": 1.0716026255209124e-05,
      "loss": 0.3106101036071777,
      "memory(GiB)": 137.67,
      "step": 1290,
      "token_acc": 0.879328668153049,
      "train_speed(iter/s)": 0.041037
    },
    {
      "epoch": 1.5163934426229508,
      "grad_norm": 0.18378229439258575,
      "learning_rate": 1.0651615377454872e-05,
      "loss": 0.3110929250717163,
      "memory(GiB)": 137.67,
      "step": 1295,
      "token_acc": 0.8856033818930429,
      "train_speed(iter/s)": 0.041033
    },
    {
      "epoch": 1.5222482435597189,
      "grad_norm": 0.18482638895511627,
      "learning_rate": 1.0587177338725834e-05,
      "loss": 0.3163102626800537,
      "memory(GiB)": 137.67,
      "step": 1300,
      "token_acc": 0.8870778115329991,
      "train_speed(iter/s)": 0.04103
    },
    {
      "epoch": 1.5281030444964872,
      "grad_norm": 0.17333081364631653,
      "learning_rate": 1.0522714824962228e-05,
      "loss": 0.30377721786499023,
      "memory(GiB)": 137.67,
      "step": 1305,
      "token_acc": 0.8980077050082553,
      "train_speed(iter/s)": 0.041028
    },
    {
      "epoch": 1.5339578454332554,
      "grad_norm": 0.1912304162979126,
      "learning_rate": 1.0458230523124443e-05,
      "loss": 0.3162518501281738,
      "memory(GiB)": 137.67,
      "step": 1310,
      "token_acc": 0.8886457770855507,
      "train_speed(iter/s)": 0.041024
    },
    {
      "epoch": 1.5398126463700235,
      "grad_norm": 0.1846192628145218,
      "learning_rate": 1.0393727121081057e-05,
      "loss": 0.3126535892486572,
      "memory(GiB)": 137.67,
      "step": 1315,
      "token_acc": 0.8860128586991429,
      "train_speed(iter/s)": 0.041023
    },
    {
      "epoch": 1.5456674473067915,
      "grad_norm": 0.17747725546360016,
      "learning_rate": 1.0329207307496785e-05,
      "loss": 0.30208649635314944,
      "memory(GiB)": 137.67,
      "step": 1320,
      "token_acc": 0.8879456759093934,
      "train_speed(iter/s)": 0.04102
    },
    {
      "epoch": 1.5515222482435598,
      "grad_norm": 0.18443572521209717,
      "learning_rate": 1.0264673771720429e-05,
      "loss": 0.3092689037322998,
      "memory(GiB)": 137.67,
      "step": 1325,
      "token_acc": 0.892488839320581,
      "train_speed(iter/s)": 0.041016
    },
    {
      "epoch": 1.5573770491803278,
      "grad_norm": 0.18431353569030762,
      "learning_rate": 1.0200129203672754e-05,
      "loss": 0.3100308656692505,
      "memory(GiB)": 137.67,
      "step": 1330,
      "token_acc": 0.8782463261547713,
      "train_speed(iter/s)": 0.041012
    },
    {
      "epoch": 1.5632318501170959,
      "grad_norm": 0.1662471741437912,
      "learning_rate": 1.0135576293734381e-05,
      "loss": 0.30292906761169436,
      "memory(GiB)": 137.67,
      "step": 1335,
      "token_acc": 0.8942868271402976,
      "train_speed(iter/s)": 0.04101
    },
    {
      "epoch": 1.5690866510538641,
      "grad_norm": 0.1806328445672989,
      "learning_rate": 1.007101773263365e-05,
      "loss": 0.31366329193115233,
      "memory(GiB)": 137.67,
      "step": 1340,
      "token_acc": 0.8866166119192868,
      "train_speed(iter/s)": 0.041006
    },
    {
      "epoch": 1.5749414519906324,
      "grad_norm": 0.16915848851203918,
      "learning_rate": 1.0006456211334445e-05,
      "loss": 0.30766754150390624,
      "memory(GiB)": 137.67,
      "step": 1345,
      "token_acc": 0.8863719744503918,
      "train_speed(iter/s)": 0.041006
    },
    {
      "epoch": 1.5807962529274004,
      "grad_norm": 0.16690009832382202,
      "learning_rate": 9.941894420924044e-06,
      "loss": 0.3059431314468384,
      "memory(GiB)": 137.67,
      "step": 1350,
      "token_acc": 0.8971780549005762,
      "train_speed(iter/s)": 0.041001
    },
    {
      "epoch": 1.5866510538641685,
      "grad_norm": 0.17337647080421448,
      "learning_rate": 9.87733505250094e-06,
      "loss": 0.3098172664642334,
      "memory(GiB)": 137.67,
      "step": 1355,
      "token_acc": 0.8863237006126697,
      "train_speed(iter/s)": 0.040998
    },
    {
      "epoch": 1.5925058548009368,
      "grad_norm": 0.17512920498847961,
      "learning_rate": 9.812780797062678e-06,
      "loss": 0.30655522346496583,
      "memory(GiB)": 137.67,
      "step": 1360,
      "token_acc": 0.8899597184053006,
      "train_speed(iter/s)": 0.040993
    },
    {
      "epoch": 1.598360655737705,
      "grad_norm": 0.1765688955783844,
      "learning_rate": 9.748234345393672e-06,
      "loss": 0.3023026466369629,
      "memory(GiB)": 137.67,
      "step": 1365,
      "token_acc": 0.8879338667133921,
      "train_speed(iter/s)": 0.040989
    },
    {
      "epoch": 1.604215456674473,
      "grad_norm": 0.18416614830493927,
      "learning_rate": 9.68369838795306e-06,
      "loss": 0.30958683490753175,
      "memory(GiB)": 137.67,
      "step": 1370,
      "token_acc": 0.8849809108691687,
      "train_speed(iter/s)": 0.040984
    },
    {
      "epoch": 1.6100702576112411,
      "grad_norm": 0.17386697232723236,
      "learning_rate": 9.61917561476255e-06,
      "loss": 0.30420713424682616,
      "memory(GiB)": 137.67,
      "step": 1375,
      "token_acc": 0.8786233528080887,
      "train_speed(iter/s)": 0.040981
    },
    {
      "epoch": 1.6159250585480094,
      "grad_norm": 0.18169918656349182,
      "learning_rate": 9.554668715294305e-06,
      "loss": 0.31483819484710696,
      "memory(GiB)": 137.67,
      "step": 1380,
      "token_acc": 0.8864194675551166,
      "train_speed(iter/s)": 0.040979
    },
    {
      "epoch": 1.6217798594847777,
      "grad_norm": 0.1892368197441101,
      "learning_rate": 9.490180378358826e-06,
      "loss": 0.3172303676605225,
      "memory(GiB)": 137.67,
      "step": 1385,
      "token_acc": 0.8828729942067092,
      "train_speed(iter/s)": 0.040977
    },
    {
      "epoch": 1.6276346604215457,
      "grad_norm": 0.1751379817724228,
      "learning_rate": 9.425713291992878e-06,
      "loss": 0.30653929710388184,
      "memory(GiB)": 137.67,
      "step": 1390,
      "token_acc": 0.8895787320550146,
      "train_speed(iter/s)": 0.040974
    },
    {
      "epoch": 1.6334894613583137,
      "grad_norm": 0.18914154171943665,
      "learning_rate": 9.361270143347452e-06,
      "loss": 0.31959149837493894,
      "memory(GiB)": 137.67,
      "step": 1395,
      "token_acc": 0.8822264278089348,
      "train_speed(iter/s)": 0.040972
    },
    {
      "epoch": 1.639344262295082,
      "grad_norm": 0.16736507415771484,
      "learning_rate": 9.296853618575753e-06,
      "loss": 0.30730547904968264,
      "memory(GiB)": 137.67,
      "step": 1400,
      "token_acc": 0.8928722715040367,
      "train_speed(iter/s)": 0.04097
    },
    {
      "epoch": 1.6451990632318503,
      "grad_norm": 0.1708020716905594,
      "learning_rate": 9.232466402721241e-06,
      "loss": 0.31717801094055176,
      "memory(GiB)": 137.67,
      "step": 1405,
      "token_acc": 0.886989175916414,
      "train_speed(iter/s)": 0.040969
    },
    {
      "epoch": 1.651053864168618,
      "grad_norm": 0.17622792720794678,
      "learning_rate": 9.1681111796057e-06,
      "loss": 0.3083082675933838,
      "memory(GiB)": 137.67,
      "step": 1410,
      "token_acc": 0.8884494066990437,
      "train_speed(iter/s)": 0.040968
    },
    {
      "epoch": 1.6569086651053864,
      "grad_norm": 0.1885053962469101,
      "learning_rate": 9.103790631717375e-06,
      "loss": 0.32230064868927,
      "memory(GiB)": 137.67,
      "step": 1415,
      "token_acc": 0.878518037454961,
      "train_speed(iter/s)": 0.040965
    },
    {
      "epoch": 1.6627634660421546,
      "grad_norm": 0.17244482040405273,
      "learning_rate": 9.039507440099164e-06,
      "loss": 0.30806798934936525,
      "memory(GiB)": 137.67,
      "step": 1420,
      "token_acc": 0.8929606011942812,
      "train_speed(iter/s)": 0.040962
    },
    {
      "epoch": 1.6686182669789227,
      "grad_norm": 0.18172700703144073,
      "learning_rate": 8.975264284236866e-06,
      "loss": 0.30987024307250977,
      "memory(GiB)": 137.67,
      "step": 1425,
      "token_acc": 0.8885019605876434,
      "train_speed(iter/s)": 0.040961
    },
    {
      "epoch": 1.6744730679156907,
      "grad_norm": 0.18555694818496704,
      "learning_rate": 8.911063841947476e-06,
      "loss": 0.31224822998046875,
      "memory(GiB)": 137.67,
      "step": 1430,
      "token_acc": 0.8862099925232826,
      "train_speed(iter/s)": 0.040958
    },
    {
      "epoch": 1.680327868852459,
      "grad_norm": 0.18322236835956573,
      "learning_rate": 8.846908789267589e-06,
      "loss": 0.31196701526641846,
      "memory(GiB)": 137.67,
      "step": 1435,
      "token_acc": 0.8887980814742356,
      "train_speed(iter/s)": 0.040958
    },
    {
      "epoch": 1.6861826697892273,
      "grad_norm": 0.17747406661510468,
      "learning_rate": 8.78280180034184e-06,
      "loss": 0.3032996654510498,
      "memory(GiB)": 137.67,
      "step": 1440,
      "token_acc": 0.8822490977332802,
      "train_speed(iter/s)": 0.040955
    },
    {
      "epoch": 1.6920374707259953,
      "grad_norm": 0.18120799958705902,
      "learning_rate": 8.718745547311458e-06,
      "loss": 0.3137194633483887,
      "memory(GiB)": 137.67,
      "step": 1445,
      "token_acc": 0.8828540900663084,
      "train_speed(iter/s)": 0.040951
    },
    {
      "epoch": 1.6978922716627634,
      "grad_norm": 0.17743031680583954,
      "learning_rate": 8.654742700202849e-06,
      "loss": 0.31336297988891604,
      "memory(GiB)": 137.67,
      "step": 1450,
      "token_acc": 0.8851623130427727,
      "train_speed(iter/s)": 0.040949
    },
    {
      "epoch": 1.7037470725995316,
      "grad_norm": 0.1702745109796524,
      "learning_rate": 8.590795926816348e-06,
      "loss": 0.3027879953384399,
      "memory(GiB)": 137.67,
      "step": 1455,
      "token_acc": 0.8840805588371897,
      "train_speed(iter/s)": 0.040947
    },
    {
      "epoch": 1.7096018735362999,
      "grad_norm": 0.17240740358829498,
      "learning_rate": 8.526907892614986e-06,
      "loss": 0.3072841167449951,
      "memory(GiB)": 137.67,
      "step": 1460,
      "token_acc": 0.88948632592922,
      "train_speed(iter/s)": 0.040943
    },
    {
      "epoch": 1.715456674473068,
      "grad_norm": 0.17982088029384613,
      "learning_rate": 8.463081260613391e-06,
      "loss": 0.30924406051635744,
      "memory(GiB)": 137.67,
      "step": 1465,
      "token_acc": 0.8940978807037782,
      "train_speed(iter/s)": 0.04094
    },
    {
      "epoch": 1.721311475409836,
      "grad_norm": 0.19751447439193726,
      "learning_rate": 8.399318691266806e-06,
      "loss": 0.3119847774505615,
      "memory(GiB)": 137.67,
      "step": 1470,
      "token_acc": 0.8852366571009662,
      "train_speed(iter/s)": 0.040936
    },
    {
      "epoch": 1.7271662763466042,
      "grad_norm": 0.18603962659835815,
      "learning_rate": 8.335622842360168e-06,
      "loss": 0.3066195011138916,
      "memory(GiB)": 137.67,
      "step": 1475,
      "token_acc": 0.8890113777789009,
      "train_speed(iter/s)": 0.040933
    },
    {
      "epoch": 1.7330210772833725,
      "grad_norm": 0.2541693449020386,
      "learning_rate": 8.271996368897345e-06,
      "loss": 0.3128560781478882,
      "memory(GiB)": 137.67,
      "step": 1480,
      "token_acc": 0.8902386961489684,
      "train_speed(iter/s)": 0.040929
    },
    {
      "epoch": 1.7388758782201406,
      "grad_norm": 0.16992934048175812,
      "learning_rate": 8.208441922990454e-06,
      "loss": 0.3037855863571167,
      "memory(GiB)": 137.67,
      "step": 1485,
      "token_acc": 0.8849534643226473,
      "train_speed(iter/s)": 0.040926
    },
    {
      "epoch": 1.7447306791569086,
      "grad_norm": 0.17065441608428955,
      "learning_rate": 8.144962153749331e-06,
      "loss": 0.30540289878845217,
      "memory(GiB)": 137.67,
      "step": 1490,
      "token_acc": 0.8819315749736371,
      "train_speed(iter/s)": 0.040924
    },
    {
      "epoch": 1.7505854800936769,
      "grad_norm": 0.1787635236978531,
      "learning_rate": 8.081559707171094e-06,
      "loss": 0.31698925495147706,
      "memory(GiB)": 137.67,
      "step": 1495,
      "token_acc": 0.8824724072862914,
      "train_speed(iter/s)": 0.040923
    },
    {
      "epoch": 1.756440281030445,
      "grad_norm": 0.1751013845205307,
      "learning_rate": 8.01823722602986e-06,
      "loss": 0.30347585678100586,
      "memory(GiB)": 137.67,
      "step": 1500,
      "token_acc": 0.893298859486769,
      "train_speed(iter/s)": 0.040922
    },
    {
      "epoch": 1.762295081967213,
      "grad_norm": 0.17399156093597412,
      "learning_rate": 7.954997349766576e-06,
      "loss": 0.3116060972213745,
      "memory(GiB)": 137.67,
      "step": 1505,
      "token_acc": 0.8889070320988275,
      "train_speed(iter/s)": 0.040921
    },
    {
      "epoch": 1.7681498829039812,
      "grad_norm": 0.18837633728981018,
      "learning_rate": 7.891842714379027e-06,
      "loss": 0.29880785942077637,
      "memory(GiB)": 137.67,
      "step": 1510,
      "token_acc": 0.893647204719971,
      "train_speed(iter/s)": 0.040918
    },
    {
      "epoch": 1.7740046838407495,
      "grad_norm": 0.1845746487379074,
      "learning_rate": 7.828775952311921e-06,
      "loss": 0.30261945724487305,
      "memory(GiB)": 137.67,
      "step": 1515,
      "token_acc": 0.8851783808483535,
      "train_speed(iter/s)": 0.040914
    },
    {
      "epoch": 1.7798594847775175,
      "grad_norm": 0.16885152459144592,
      "learning_rate": 7.765799692347201e-06,
      "loss": 0.3042313575744629,
      "memory(GiB)": 137.67,
      "step": 1520,
      "token_acc": 0.8835214994418757,
      "train_speed(iter/s)": 0.040911
    },
    {
      "epoch": 1.7857142857142856,
      "grad_norm": 0.1790182739496231,
      "learning_rate": 7.702916559494444e-06,
      "loss": 0.31259956359863283,
      "memory(GiB)": 137.67,
      "step": 1525,
      "token_acc": 0.8878653758934018,
      "train_speed(iter/s)": 0.040909
    },
    {
      "epoch": 1.7915690866510539,
      "grad_norm": 0.17695166170597076,
      "learning_rate": 7.64012917488146e-06,
      "loss": 0.29359025955200196,
      "memory(GiB)": 137.67,
      "step": 1530,
      "token_acc": 0.9000399023492115,
      "train_speed(iter/s)": 0.040908
    },
    {
      "epoch": 1.7974238875878221,
      "grad_norm": 0.18347503244876862,
      "learning_rate": 7.577440155645028e-06,
      "loss": 0.30249216556549074,
      "memory(GiB)": 137.67,
      "step": 1535,
      "token_acc": 0.8902694639046774,
      "train_speed(iter/s)": 0.040904
    },
    {
      "epoch": 1.8032786885245902,
      "grad_norm": 0.1697729527950287,
      "learning_rate": 7.514852114821811e-06,
      "loss": 0.31291751861572265,
      "memory(GiB)": 137.67,
      "step": 1540,
      "token_acc": 0.8868685350765146,
      "train_speed(iter/s)": 0.040902
    },
    {
      "epoch": 1.8091334894613582,
      "grad_norm": 0.16477090120315552,
      "learning_rate": 7.452367661239433e-06,
      "loss": 0.29220216274261473,
      "memory(GiB)": 137.67,
      "step": 1545,
      "token_acc": 0.8877543630965312,
      "train_speed(iter/s)": 0.040899
    },
    {
      "epoch": 1.8149882903981265,
      "grad_norm": 0.19079044461250305,
      "learning_rate": 7.389989399407741e-06,
      "loss": 0.3156083106994629,
      "memory(GiB)": 137.67,
      "step": 1550,
      "token_acc": 0.8873283112245697,
      "train_speed(iter/s)": 0.040896
    },
    {
      "epoch": 1.8208430913348947,
      "grad_norm": 0.1723940074443817,
      "learning_rate": 7.3277199294102485e-06,
      "loss": 0.30045547485351565,
      "memory(GiB)": 137.67,
      "step": 1555,
      "token_acc": 0.8850201501823112,
      "train_speed(iter/s)": 0.040894
    },
    {
      "epoch": 1.8266978922716628,
      "grad_norm": 0.18594853579998016,
      "learning_rate": 7.265561846795741e-06,
      "loss": 0.3101131677627563,
      "memory(GiB)": 137.67,
      "step": 1560,
      "token_acc": 0.8868083283139077,
      "train_speed(iter/s)": 0.040889
    },
    {
      "epoch": 1.8325526932084308,
      "grad_norm": 0.1757504642009735,
      "learning_rate": 7.203517742470101e-06,
      "loss": 0.30873966217041016,
      "memory(GiB)": 137.67,
      "step": 1565,
      "token_acc": 0.8949954641669187,
      "train_speed(iter/s)": 0.040886
    },
    {
      "epoch": 1.838407494145199,
      "grad_norm": 0.2077726572751999,
      "learning_rate": 7.141590202588312e-06,
      "loss": 0.3127377986907959,
      "memory(GiB)": 137.67,
      "step": 1570,
      "token_acc": 0.888584743745537,
      "train_speed(iter/s)": 0.040885
    },
    {
      "epoch": 1.8442622950819674,
      "grad_norm": 0.17814461886882782,
      "learning_rate": 7.079781808446648e-06,
      "loss": 0.31596999168395995,
      "memory(GiB)": 137.67,
      "step": 1575,
      "token_acc": 0.8755756783669405,
      "train_speed(iter/s)": 0.040882
    },
    {
      "epoch": 1.8501170960187352,
      "grad_norm": 0.16512958705425262,
      "learning_rate": 7.018095136375089e-06,
      "loss": 0.3012762308120728,
      "memory(GiB)": 137.67,
      "step": 1580,
      "token_acc": 0.8862999993707803,
      "train_speed(iter/s)": 0.04088
    },
    {
      "epoch": 1.8559718969555035,
      "grad_norm": 0.18698780238628387,
      "learning_rate": 6.956532757629945e-06,
      "loss": 0.3080646514892578,
      "memory(GiB)": 137.67,
      "step": 1585,
      "token_acc": 0.8861714900322669,
      "train_speed(iter/s)": 0.040877
    },
    {
      "epoch": 1.8618266978922717,
      "grad_norm": 0.17041386663913727,
      "learning_rate": 6.89509723828665e-06,
      "loss": 0.3119032382965088,
      "memory(GiB)": 137.67,
      "step": 1590,
      "token_acc": 0.8861256952099799,
      "train_speed(iter/s)": 0.040875
    },
    {
      "epoch": 1.8676814988290398,
      "grad_norm": 0.18812042474746704,
      "learning_rate": 6.833791139132824e-06,
      "loss": 0.2984042167663574,
      "memory(GiB)": 137.67,
      "step": 1595,
      "token_acc": 0.8881694299555838,
      "train_speed(iter/s)": 0.040871
    },
    {
      "epoch": 1.8735362997658078,
      "grad_norm": 0.16663610935211182,
      "learning_rate": 6.772617015561529e-06,
      "loss": 0.3069270610809326,
      "memory(GiB)": 137.67,
      "step": 1600,
      "token_acc": 0.8785419403265153,
      "train_speed(iter/s)": 0.040869
    },
    {
      "epoch": 1.879391100702576,
      "grad_norm": 0.16731353104114532,
      "learning_rate": 6.7115774174647475e-06,
      "loss": 0.29993810653686526,
      "memory(GiB)": 137.67,
      "step": 1605,
      "token_acc": 0.8944355407195264,
      "train_speed(iter/s)": 0.040868
    },
    {
      "epoch": 1.8852459016393444,
      "grad_norm": 0.18671032786369324,
      "learning_rate": 6.6506748891271045e-06,
      "loss": 0.3104290723800659,
      "memory(GiB)": 137.67,
      "step": 1610,
      "token_acc": 0.893398089707724,
      "train_speed(iter/s)": 0.040866
    },
    {
      "epoch": 1.8911007025761124,
      "grad_norm": 0.17069920897483826,
      "learning_rate": 6.5899119691198025e-06,
      "loss": 0.30440511703491213,
      "memory(GiB)": 137.67,
      "step": 1615,
      "token_acc": 0.8883004841907675,
      "train_speed(iter/s)": 0.040865
    },
    {
      "epoch": 1.8969555035128804,
      "grad_norm": 0.1704709678888321,
      "learning_rate": 6.529291190194829e-06,
      "loss": 0.3084626436233521,
      "memory(GiB)": 137.67,
      "step": 1620,
      "token_acc": 0.887373335138147,
      "train_speed(iter/s)": 0.040864
    },
    {
      "epoch": 1.9028103044496487,
      "grad_norm": 0.1708633005619049,
      "learning_rate": 6.468815079179364e-06,
      "loss": 0.30423784255981445,
      "memory(GiB)": 137.67,
      "step": 1625,
      "token_acc": 0.8923868074324853,
      "train_speed(iter/s)": 0.040862
    },
    {
      "epoch": 1.908665105386417,
      "grad_norm": 0.17672830820083618,
      "learning_rate": 6.408486156870466e-06,
      "loss": 0.31655054092407225,
      "memory(GiB)": 137.67,
      "step": 1630,
      "token_acc": 0.8692423282788768,
      "train_speed(iter/s)": 0.04086
    },
    {
      "epoch": 1.914519906323185,
      "grad_norm": 0.1735108494758606,
      "learning_rate": 6.348306937929991e-06,
      "loss": 0.31425652503967283,
      "memory(GiB)": 137.67,
      "step": 1635,
      "token_acc": 0.882395514622517,
      "train_speed(iter/s)": 0.04086
    },
    {
      "epoch": 1.920374707259953,
      "grad_norm": 0.15910685062408447,
      "learning_rate": 6.288279930779789e-06,
      "loss": 0.29740355014801023,
      "memory(GiB)": 137.67,
      "step": 1640,
      "token_acc": 0.8963298424379659,
      "train_speed(iter/s)": 0.040858
    },
    {
      "epoch": 1.9262295081967213,
      "grad_norm": 0.17650458216667175,
      "learning_rate": 6.228407637497131e-06,
      "loss": 0.30800676345825195,
      "memory(GiB)": 137.67,
      "step": 1645,
      "token_acc": 0.8754677877967858,
      "train_speed(iter/s)": 0.040855
    },
    {
      "epoch": 1.9320843091334896,
      "grad_norm": 0.16745297610759735,
      "learning_rate": 6.1686925537104306e-06,
      "loss": 0.2977410316467285,
      "memory(GiB)": 137.67,
      "step": 1650,
      "token_acc": 0.8798736234089867,
      "train_speed(iter/s)": 0.040852
    },
    {
      "epoch": 1.9379391100702577,
      "grad_norm": 0.1728445142507553,
      "learning_rate": 6.109137168495205e-06,
      "loss": 0.304546856880188,
      "memory(GiB)": 137.67,
      "step": 1655,
      "token_acc": 0.9005831398969597,
      "train_speed(iter/s)": 0.040851
    },
    {
      "epoch": 1.9437939110070257,
      "grad_norm": 0.1682547777891159,
      "learning_rate": 6.049743964270336e-06,
      "loss": 0.3136142730712891,
      "memory(GiB)": 137.67,
      "step": 1660,
      "token_acc": 0.8856946741131322,
      "train_speed(iter/s)": 0.040848
    },
    {
      "epoch": 1.949648711943794,
      "grad_norm": 0.18915309011936188,
      "learning_rate": 5.990515416694591e-06,
      "loss": 0.3113490104675293,
      "memory(GiB)": 137.67,
      "step": 1665,
      "token_acc": 0.8886227731406503,
      "train_speed(iter/s)": 0.040845
    },
    {
      "epoch": 1.955503512880562,
      "grad_norm": 0.18081413209438324,
      "learning_rate": 5.931453994563434e-06,
      "loss": 0.30602524280548093,
      "memory(GiB)": 137.67,
      "step": 1670,
      "token_acc": 0.8937767328555647,
      "train_speed(iter/s)": 0.040844
    },
    {
      "epoch": 1.96135831381733,
      "grad_norm": 0.2595233917236328,
      "learning_rate": 5.872562159706116e-06,
      "loss": 0.309699273109436,
      "memory(GiB)": 137.67,
      "step": 1675,
      "token_acc": 0.883843976093111,
      "train_speed(iter/s)": 0.040842
    },
    {
      "epoch": 1.9672131147540983,
      "grad_norm": 0.17678314447402954,
      "learning_rate": 5.8138423668830605e-06,
      "loss": 0.30298714637756347,
      "memory(GiB)": 137.67,
      "step": 1680,
      "token_acc": 0.8865513684995878,
      "train_speed(iter/s)": 0.040842
    },
    {
      "epoch": 1.9730679156908666,
      "grad_norm": 0.1795545518398285,
      "learning_rate": 5.755297063683551e-06,
      "loss": 0.30653939247131345,
      "memory(GiB)": 137.67,
      "step": 1685,
      "token_acc": 0.8907540567138181,
      "train_speed(iter/s)": 0.040841
    },
    {
      "epoch": 1.9789227166276346,
      "grad_norm": 0.17241141200065613,
      "learning_rate": 5.696928690423693e-06,
      "loss": 0.30241034030914304,
      "memory(GiB)": 137.67,
      "step": 1690,
      "token_acc": 0.8856109987263056,
      "train_speed(iter/s)": 0.040841
    },
    {
      "epoch": 1.9847775175644027,
      "grad_norm": 0.1767030656337738,
      "learning_rate": 5.638739680044718e-06,
      "loss": 0.3159188270568848,
      "memory(GiB)": 137.67,
      "step": 1695,
      "token_acc": 0.8789045280418222,
      "train_speed(iter/s)": 0.040839
    },
    {
      "epoch": 1.990632318501171,
      "grad_norm": 0.1798180490732193,
      "learning_rate": 5.580732458011544e-06,
      "loss": 0.3054344654083252,
      "memory(GiB)": 137.67,
      "step": 1700,
      "token_acc": 0.8914613695909465,
      "train_speed(iter/s)": 0.040837
    },
    {
      "epoch": 1.9964871194379392,
      "grad_norm": 0.1673898547887802,
      "learning_rate": 5.522909442211708e-06,
      "loss": 0.3050167798995972,
      "memory(GiB)": 137.67,
      "step": 1705,
      "token_acc": 0.8836358249226172,
      "train_speed(iter/s)": 0.040834
    },
    {
      "epoch": 2.002341920374707,
      "grad_norm": 0.24459093809127808,
      "learning_rate": 5.465273042854551e-06,
      "loss": 0.2896696090698242,
      "memory(GiB)": 137.67,
      "step": 1710,
      "token_acc": 0.8956877534575909,
      "train_speed(iter/s)": 0.040723
    },
    {
      "epoch": 2.0081967213114753,
      "grad_norm": 0.19826985895633698,
      "learning_rate": 5.407825662370778e-06,
      "loss": 0.2708754301071167,
      "memory(GiB)": 137.67,
      "step": 1715,
      "token_acc": 0.8993573677984775,
      "train_speed(iter/s)": 0.040721
    },
    {
      "epoch": 2.0140515222482436,
      "grad_norm": 0.20230858027935028,
      "learning_rate": 5.350569695312313e-06,
      "loss": 0.27931761741638184,
      "memory(GiB)": 137.67,
      "step": 1720,
      "token_acc": 0.8964727026237073,
      "train_speed(iter/s)": 0.040718
    },
    {
      "epoch": 2.019906323185012,
      "grad_norm": 0.17940187454223633,
      "learning_rate": 5.293507528252474e-06,
      "loss": 0.2833970308303833,
      "memory(GiB)": 137.67,
      "step": 1725,
      "token_acc": 0.8971622665586578,
      "train_speed(iter/s)": 0.040716
    },
    {
      "epoch": 2.0257611241217797,
      "grad_norm": 0.2274295687675476,
      "learning_rate": 5.236641539686518e-06,
      "loss": 0.2709039211273193,
      "memory(GiB)": 137.67,
      "step": 1730,
      "token_acc": 0.8940215607642851,
      "train_speed(iter/s)": 0.040716
    },
    {
      "epoch": 2.031615925058548,
      "grad_norm": 0.17937658727169037,
      "learning_rate": 5.179974099932472e-06,
      "loss": 0.2649374961853027,
      "memory(GiB)": 137.67,
      "step": 1735,
      "token_acc": 0.8949033413934375,
      "train_speed(iter/s)": 0.040713
    },
    {
      "epoch": 2.037470725995316,
      "grad_norm": 0.1847214251756668,
      "learning_rate": 5.12350757103236e-06,
      "loss": 0.26505355834960936,
      "memory(GiB)": 137.67,
      "step": 1740,
      "token_acc": 0.8981974914281606,
      "train_speed(iter/s)": 0.040712
    },
    {
      "epoch": 2.0433255269320845,
      "grad_norm": 0.1737840622663498,
      "learning_rate": 5.067244306653736e-06,
      "loss": 0.27186686992645265,
      "memory(GiB)": 137.67,
      "step": 1745,
      "token_acc": 0.9053836113307479,
      "train_speed(iter/s)": 0.040711
    },
    {
      "epoch": 2.0491803278688523,
      "grad_norm": 0.1807735711336136,
      "learning_rate": 5.0111866519915575e-06,
      "loss": 0.2668013334274292,
      "memory(GiB)": 137.67,
      "step": 1750,
      "token_acc": 0.8954151927308955,
      "train_speed(iter/s)": 0.040709
    },
    {
      "epoch": 2.0550351288056206,
      "grad_norm": 0.17946134507656097,
      "learning_rate": 4.95533694367047e-06,
      "loss": 0.26618137359619143,
      "memory(GiB)": 137.67,
      "step": 1755,
      "token_acc": 0.8999696707241193,
      "train_speed(iter/s)": 0.040708
    },
    {
      "epoch": 2.060889929742389,
      "grad_norm": 0.17995508015155792,
      "learning_rate": 4.899697509647379e-06,
      "loss": 0.27054500579833984,
      "memory(GiB)": 137.67,
      "step": 1760,
      "token_acc": 0.8920381030958765,
      "train_speed(iter/s)": 0.040707
    },
    {
      "epoch": 2.066744730679157,
      "grad_norm": 0.22271017730236053,
      "learning_rate": 4.844270669114424e-06,
      "loss": 0.2727907657623291,
      "memory(GiB)": 137.67,
      "step": 1765,
      "token_acc": 0.9031526316777533,
      "train_speed(iter/s)": 0.040706
    },
    {
      "epoch": 2.072599531615925,
      "grad_norm": 0.18377523124217987,
      "learning_rate": 4.789058732402319e-06,
      "loss": 0.26617846488952634,
      "memory(GiB)": 137.67,
      "step": 1770,
      "token_acc": 0.8968159437280188,
      "train_speed(iter/s)": 0.040704
    },
    {
      "epoch": 2.078454332552693,
      "grad_norm": 0.18358266353607178,
      "learning_rate": 4.734064000884044e-06,
      "loss": 0.2815399646759033,
      "memory(GiB)": 137.67,
      "step": 1775,
      "token_acc": 0.8860162596527972,
      "train_speed(iter/s)": 0.040703
    },
    {
      "epoch": 2.0843091334894615,
      "grad_norm": 0.17939767241477966,
      "learning_rate": 4.679288766878908e-06,
      "loss": 0.2770793914794922,
      "memory(GiB)": 137.67,
      "step": 1780,
      "token_acc": 0.8990350010749907,
      "train_speed(iter/s)": 0.0407
    },
    {
      "epoch": 2.0901639344262297,
      "grad_norm": 0.18252268433570862,
      "learning_rate": 4.624735313557019e-06,
      "loss": 0.27314205169677735,
      "memory(GiB)": 137.67,
      "step": 1785,
      "token_acc": 0.9036665729722977,
      "train_speed(iter/s)": 0.040699
    },
    {
      "epoch": 2.0960187353629975,
      "grad_norm": 0.17692163586616516,
      "learning_rate": 4.570405914844105e-06,
      "loss": 0.26518521308898924,
      "memory(GiB)": 137.67,
      "step": 1790,
      "token_acc": 0.9007013796506218,
      "train_speed(iter/s)": 0.040696
    },
    {
      "epoch": 2.101873536299766,
      "grad_norm": 0.1812998205423355,
      "learning_rate": 4.516302835326723e-06,
      "loss": 0.27246594429016113,
      "memory(GiB)": 137.67,
      "step": 1795,
      "token_acc": 0.9057411329497284,
      "train_speed(iter/s)": 0.040694
    },
    {
      "epoch": 2.107728337236534,
      "grad_norm": 0.17790301144123077,
      "learning_rate": 4.462428330157886e-06,
      "loss": 0.2635958671569824,
      "memory(GiB)": 137.67,
      "step": 1800,
      "token_acc": 0.9060071718018364,
      "train_speed(iter/s)": 0.040692
    },
    {
      "epoch": 2.113583138173302,
      "grad_norm": 0.1772291511297226,
      "learning_rate": 4.4087846449630475e-06,
      "loss": 0.2673187732696533,
      "memory(GiB)": 137.67,
      "step": 1805,
      "token_acc": 0.902466497498459,
      "train_speed(iter/s)": 0.040691
    },
    {
      "epoch": 2.11943793911007,
      "grad_norm": 0.1833985149860382,
      "learning_rate": 4.355374015746493e-06,
      "loss": 0.26436376571655273,
      "memory(GiB)": 137.67,
      "step": 1810,
      "token_acc": 0.8990824248093747,
      "train_speed(iter/s)": 0.040688
    },
    {
      "epoch": 2.1252927400468384,
      "grad_norm": 0.1888750046491623,
      "learning_rate": 4.302198668798159e-06,
      "loss": 0.2690884113311768,
      "memory(GiB)": 137.67,
      "step": 1815,
      "token_acc": 0.8948256326325066,
      "train_speed(iter/s)": 0.040688
    },
    {
      "epoch": 2.1311475409836067,
      "grad_norm": 0.1726667881011963,
      "learning_rate": 4.249260820600813e-06,
      "loss": 0.2568142175674438,
      "memory(GiB)": 137.67,
      "step": 1820,
      "token_acc": 0.9027062619756462,
      "train_speed(iter/s)": 0.040686
    },
    {
      "epoch": 2.1370023419203745,
      "grad_norm": 0.18242421746253967,
      "learning_rate": 4.1965626777376766e-06,
      "loss": 0.26575822830200196,
      "memory(GiB)": 137.67,
      "step": 1825,
      "token_acc": 0.9058191422116245,
      "train_speed(iter/s)": 0.040685
    },
    {
      "epoch": 2.142857142857143,
      "grad_norm": 0.17865152657032013,
      "learning_rate": 4.144106436800453e-06,
      "loss": 0.2705830097198486,
      "memory(GiB)": 137.67,
      "step": 1830,
      "token_acc": 0.9064275903781455,
      "train_speed(iter/s)": 0.040686
    },
    {
      "epoch": 2.148711943793911,
      "grad_norm": 0.1739743947982788,
      "learning_rate": 4.091894284297758e-06,
      "loss": 0.262749981880188,
      "memory(GiB)": 137.67,
      "step": 1835,
      "token_acc": 0.8932282627390278,
      "train_speed(iter/s)": 0.040684
    },
    {
      "epoch": 2.1545667447306793,
      "grad_norm": 0.18693114817142487,
      "learning_rate": 4.039928396563983e-06,
      "loss": 0.27836999893188474,
      "memory(GiB)": 137.67,
      "step": 1840,
      "token_acc": 0.8999278596166879,
      "train_speed(iter/s)": 0.040683
    },
    {
      "epoch": 2.160421545667447,
      "grad_norm": 0.18225987255573273,
      "learning_rate": 3.9882109396685845e-06,
      "loss": 0.25630941390991213,
      "memory(GiB)": 137.67,
      "step": 1845,
      "token_acc": 0.8964322481719588,
      "train_speed(iter/s)": 0.04068
    },
    {
      "epoch": 2.1662763466042154,
      "grad_norm": 0.1680818498134613,
      "learning_rate": 3.936744069325797e-06,
      "loss": 0.25788373947143556,
      "memory(GiB)": 137.67,
      "step": 1850,
      "token_acc": 0.9047133964952628,
      "train_speed(iter/s)": 0.040677
    },
    {
      "epoch": 2.1721311475409837,
      "grad_norm": 0.17563344538211823,
      "learning_rate": 3.885529930804768e-06,
      "loss": 0.2534646987915039,
      "memory(GiB)": 137.67,
      "step": 1855,
      "token_acc": 0.895904841548197,
      "train_speed(iter/s)": 0.040675
    },
    {
      "epoch": 2.177985948477752,
      "grad_norm": 0.2031351625919342,
      "learning_rate": 3.834570658840152e-06,
      "loss": 0.2712204933166504,
      "memory(GiB)": 137.67,
      "step": 1860,
      "token_acc": 0.8943131411791787,
      "train_speed(iter/s)": 0.040674
    },
    {
      "epoch": 2.1838407494145198,
      "grad_norm": 0.1767955720424652,
      "learning_rate": 3.7838683775431106e-06,
      "loss": 0.26442804336547854,
      "memory(GiB)": 137.67,
      "step": 1865,
      "token_acc": 0.9006802168952266,
      "train_speed(iter/s)": 0.040673
    },
    {
      "epoch": 2.189695550351288,
      "grad_norm": 0.17129677534103394,
      "learning_rate": 3.733425200312797e-06,
      "loss": 0.2669063091278076,
      "memory(GiB)": 137.67,
      "step": 1870,
      "token_acc": 0.8917139826542709,
      "train_speed(iter/s)": 0.040672
    },
    {
      "epoch": 2.1955503512880563,
      "grad_norm": 0.17820899188518524,
      "learning_rate": 3.683243229748249e-06,
      "loss": 0.2608784198760986,
      "memory(GiB)": 137.67,
      "step": 1875,
      "token_acc": 0.8967133346325762,
      "train_speed(iter/s)": 0.04067
    },
    {
      "epoch": 2.201405152224824,
      "grad_norm": 0.18119502067565918,
      "learning_rate": 3.633324557560747e-06,
      "loss": 0.265275239944458,
      "memory(GiB)": 137.67,
      "step": 1880,
      "token_acc": 0.9029575814389501,
      "train_speed(iter/s)": 0.040669
    },
    {
      "epoch": 2.2072599531615924,
      "grad_norm": 0.17707428336143494,
      "learning_rate": 3.5836712644866277e-06,
      "loss": 0.2611743450164795,
      "memory(GiB)": 137.67,
      "step": 1885,
      "token_acc": 0.8965409189329774,
      "train_speed(iter/s)": 0.040668
    },
    {
      "epoch": 2.2131147540983607,
      "grad_norm": 0.1768161803483963,
      "learning_rate": 3.5342854202005696e-06,
      "loss": 0.26110024452209474,
      "memory(GiB)": 137.67,
      "step": 1890,
      "token_acc": 0.9035024093649873,
      "train_speed(iter/s)": 0.040667
    },
    {
      "epoch": 2.218969555035129,
      "grad_norm": 0.17210449278354645,
      "learning_rate": 3.485169083229293e-06,
      "loss": 0.26915616989135743,
      "memory(GiB)": 137.67,
      "step": 1895,
      "token_acc": 0.9061759392893929,
      "train_speed(iter/s)": 0.040667
    },
    {
      "epoch": 2.2248243559718968,
      "grad_norm": 0.16969619691371918,
      "learning_rate": 3.4363243008657842e-06,
      "loss": 0.2634119987487793,
      "memory(GiB)": 137.67,
      "step": 1900,
      "token_acc": 0.8916742749773309,
      "train_speed(iter/s)": 0.040664
    },
    {
      "epoch": 2.230679156908665,
      "grad_norm": 0.17764930427074432,
      "learning_rate": 3.3877531090839478e-06,
      "loss": 0.2685534000396729,
      "memory(GiB)": 137.67,
      "step": 1905,
      "token_acc": 0.8940042290704804,
      "train_speed(iter/s)": 0.040663
    },
    {
      "epoch": 2.2365339578454333,
      "grad_norm": 0.17651669681072235,
      "learning_rate": 3.3394575324537327e-06,
      "loss": 0.27190165519714354,
      "memory(GiB)": 137.67,
      "step": 1910,
      "token_acc": 0.8928626982497402,
      "train_speed(iter/s)": 0.04066
    },
    {
      "epoch": 2.2423887587822016,
      "grad_norm": 0.16508856415748596,
      "learning_rate": 3.2914395840567605e-06,
      "loss": 0.2606737852096558,
      "memory(GiB)": 137.67,
      "step": 1915,
      "token_acc": 0.9028335241642236,
      "train_speed(iter/s)": 0.040658
    },
    {
      "epoch": 2.2482435597189694,
      "grad_norm": 0.16644766926765442,
      "learning_rate": 3.2437012654024057e-06,
      "loss": 0.2660099983215332,
      "memory(GiB)": 137.67,
      "step": 1920,
      "token_acc": 0.9046304613618784,
      "train_speed(iter/s)": 0.040656
    },
    {
      "epoch": 2.2540983606557377,
      "grad_norm": 0.16391952335834503,
      "learning_rate": 3.1962445663443643e-06,
      "loss": 0.2678091287612915,
      "memory(GiB)": 137.67,
      "step": 1925,
      "token_acc": 0.8979980130091664,
      "train_speed(iter/s)": 0.040653
    },
    {
      "epoch": 2.259953161592506,
      "grad_norm": 0.1803101897239685,
      "learning_rate": 3.1490714649977196e-06,
      "loss": 0.27110137939453127,
      "memory(GiB)": 137.67,
      "step": 1930,
      "token_acc": 0.905863734174048,
      "train_speed(iter/s)": 0.04065
    },
    {
      "epoch": 2.265807962529274,
      "grad_norm": 0.17323030531406403,
      "learning_rate": 3.102183927656488e-06,
      "loss": 0.26174540519714357,
      "memory(GiB)": 137.67,
      "step": 1935,
      "token_acc": 0.8902694797112273,
      "train_speed(iter/s)": 0.040649
    },
    {
      "epoch": 2.271662763466042,
      "grad_norm": 0.18379603326320648,
      "learning_rate": 3.0555839087116547e-06,
      "loss": 0.27245678901672366,
      "memory(GiB)": 137.67,
      "step": 1940,
      "token_acc": 0.90194375,
      "train_speed(iter/s)": 0.040648
    },
    {
      "epoch": 2.2775175644028103,
      "grad_norm": 0.1765807718038559,
      "learning_rate": 3.009273350569705e-06,
      "loss": 0.2700004816055298,
      "memory(GiB)": 137.67,
      "step": 1945,
      "token_acc": 0.9060629034421867,
      "train_speed(iter/s)": 0.040648
    },
    {
      "epoch": 2.2833723653395785,
      "grad_norm": 0.17609137296676636,
      "learning_rate": 2.963254183571682e-06,
      "loss": 0.2663255214691162,
      "memory(GiB)": 137.67,
      "step": 1950,
      "token_acc": 0.9028553183442811,
      "train_speed(iter/s)": 0.040646
    },
    {
      "epoch": 2.289227166276347,
      "grad_norm": 0.1761084645986557,
      "learning_rate": 2.9175283259126943e-06,
      "loss": 0.2662710428237915,
      "memory(GiB)": 137.67,
      "step": 1955,
      "token_acc": 0.9068832885430957,
      "train_speed(iter/s)": 0.040645
    },
    {
      "epoch": 2.2950819672131146,
      "grad_norm": 0.16875940561294556,
      "learning_rate": 2.872097683561986e-06,
      "loss": 0.2650928497314453,
      "memory(GiB)": 137.67,
      "step": 1960,
      "token_acc": 0.9107070141504632,
      "train_speed(iter/s)": 0.040644
    },
    {
      "epoch": 2.300936768149883,
      "grad_norm": 0.18349847197532654,
      "learning_rate": 2.8269641501834834e-06,
      "loss": 0.2731610298156738,
      "memory(GiB)": 137.67,
      "step": 1965,
      "token_acc": 0.8929668563025367,
      "train_speed(iter/s)": 0.040644
    },
    {
      "epoch": 2.306791569086651,
      "grad_norm": 0.17049305140972137,
      "learning_rate": 2.782129607056848e-06,
      "loss": 0.2668560028076172,
      "memory(GiB)": 137.67,
      "step": 1970,
      "token_acc": 0.8946301039908395,
      "train_speed(iter/s)": 0.040643
    },
    {
      "epoch": 2.312646370023419,
      "grad_norm": 0.17511935532093048,
      "learning_rate": 2.7375959229990856e-06,
      "loss": 0.25858211517333984,
      "memory(GiB)": 137.67,
      "step": 1975,
      "token_acc": 0.9011111249984377,
      "train_speed(iter/s)": 0.040641
    },
    {
      "epoch": 2.3185011709601873,
      "grad_norm": 0.16913901269435883,
      "learning_rate": 2.6933649542866326e-06,
      "loss": 0.2623398780822754,
      "memory(GiB)": 137.67,
      "step": 1980,
      "token_acc": 0.8980817363368075,
      "train_speed(iter/s)": 0.04064
    },
    {
      "epoch": 2.3243559718969555,
      "grad_norm": 0.16392305493354797,
      "learning_rate": 2.649438544577977e-06,
      "loss": 0.25210521221160886,
      "memory(GiB)": 137.67,
      "step": 1985,
      "token_acc": 0.9006790772077851,
      "train_speed(iter/s)": 0.040639
    },
    {
      "epoch": 2.330210772833724,
      "grad_norm": 0.16555212438106537,
      "learning_rate": 2.6058185248368317e-06,
      "loss": 0.26413559913635254,
      "memory(GiB)": 137.67,
      "step": 1990,
      "token_acc": 0.9057566877776727,
      "train_speed(iter/s)": 0.040637
    },
    {
      "epoch": 2.3360655737704916,
      "grad_norm": 0.17122185230255127,
      "learning_rate": 2.562506713255789e-06,
      "loss": 0.2596926689147949,
      "memory(GiB)": 137.67,
      "step": 1995,
      "token_acc": 0.9047409789878514,
      "train_speed(iter/s)": 0.040636
    },
    {
      "epoch": 2.34192037470726,
      "grad_norm": 0.17818881571292877,
      "learning_rate": 2.519504915180555e-06,
      "loss": 0.2623495101928711,
      "memory(GiB)": 137.67,
      "step": 2000,
      "token_acc": 0.9031698814490531,
      "train_speed(iter/s)": 0.040635
    },
    {
      "epoch": 2.347775175644028,
      "grad_norm": 0.17120912671089172,
      "learning_rate": 2.4768149230346917e-06,
      "loss": 0.2763922929763794,
      "memory(GiB)": 137.67,
      "step": 2005,
      "token_acc": 0.90147262555157,
      "train_speed(iter/s)": 0.040633
    },
    {
      "epoch": 2.3536299765807964,
      "grad_norm": 0.1725643426179886,
      "learning_rate": 2.4344385162448924e-06,
      "loss": 0.26347975730895995,
      "memory(GiB)": 137.67,
      "step": 2010,
      "token_acc": 0.9056239470479484,
      "train_speed(iter/s)": 0.040632
    },
    {
      "epoch": 2.3594847775175642,
      "grad_norm": 0.17098568379878998,
      "learning_rate": 2.392377461166826e-06,
      "loss": 0.26201567649841306,
      "memory(GiB)": 137.67,
      "step": 2015,
      "token_acc": 0.9030459083951856,
      "train_speed(iter/s)": 0.040631
    },
    {
      "epoch": 2.3653395784543325,
      "grad_norm": 0.17561163008213043,
      "learning_rate": 2.350633511011511e-06,
      "loss": 0.26811957359313965,
      "memory(GiB)": 137.67,
      "step": 2020,
      "token_acc": 0.8995977151723318,
      "train_speed(iter/s)": 0.040628
    },
    {
      "epoch": 2.371194379391101,
      "grad_norm": 0.1689569056034088,
      "learning_rate": 2.309208405772221e-06,
      "loss": 0.2759255409240723,
      "memory(GiB)": 137.67,
      "step": 2025,
      "token_acc": 0.9044138910892334,
      "train_speed(iter/s)": 0.040628
    },
    {
      "epoch": 2.3770491803278686,
      "grad_norm": 0.26568159461021423,
      "learning_rate": 2.2681038721519768e-06,
      "loss": 0.2785911560058594,
      "memory(GiB)": 137.67,
      "step": 2030,
      "token_acc": 0.8982950398323113,
      "train_speed(iter/s)": 0.040625
    },
    {
      "epoch": 2.382903981264637,
      "grad_norm": 0.18388140201568604,
      "learning_rate": 2.227321623491563e-06,
      "loss": 0.26940011978149414,
      "memory(GiB)": 137.67,
      "step": 2035,
      "token_acc": 0.8968315203642803,
      "train_speed(iter/s)": 0.040624
    },
    {
      "epoch": 2.388758782201405,
      "grad_norm": 0.16938382387161255,
      "learning_rate": 2.186863359698108e-06,
      "loss": 0.26633501052856445,
      "memory(GiB)": 137.67,
      "step": 2040,
      "token_acc": 0.9180211235459854,
      "train_speed(iter/s)": 0.040622
    },
    {
      "epoch": 2.3946135831381734,
      "grad_norm": 0.17878937721252441,
      "learning_rate": 2.1467307671742377e-06,
      "loss": 0.2687513828277588,
      "memory(GiB)": 137.67,
      "step": 2045,
      "token_acc": 0.8974434682640148,
      "train_speed(iter/s)": 0.040621
    },
    {
      "epoch": 2.4004683840749417,
      "grad_norm": 0.1779458373785019,
      "learning_rate": 2.106925518747779e-06,
      "loss": 0.26202917098999023,
      "memory(GiB)": 137.67,
      "step": 2050,
      "token_acc": 0.9011938413047829,
      "train_speed(iter/s)": 0.04062
    },
    {
      "epoch": 2.4063231850117095,
      "grad_norm": 0.17342902719974518,
      "learning_rate": 2.06744927360202e-06,
      "loss": 0.26468615531921386,
      "memory(GiB)": 137.67,
      "step": 2055,
      "token_acc": 0.8999491938022672,
      "train_speed(iter/s)": 0.040617
    },
    {
      "epoch": 2.4121779859484778,
      "grad_norm": 0.17159196734428406,
      "learning_rate": 2.0283036772065712e-06,
      "loss": 0.26631085872650145,
      "memory(GiB)": 137.67,
      "step": 2060,
      "token_acc": 0.904679059271446,
      "train_speed(iter/s)": 0.040615
    },
    {
      "epoch": 2.418032786885246,
      "grad_norm": 0.19288575649261475,
      "learning_rate": 1.9894903612487683e-06,
      "loss": 0.2730381488800049,
      "memory(GiB)": 137.67,
      "step": 2065,
      "token_acc": 0.8923981017844846,
      "train_speed(iter/s)": 0.040614
    },
    {
      "epoch": 2.423887587822014,
      "grad_norm": 0.17374974489212036,
      "learning_rate": 1.9510109435656457e-06,
      "loss": 0.27329106330871583,
      "memory(GiB)": 137.67,
      "step": 2070,
      "token_acc": 0.9024526900268184,
      "train_speed(iter/s)": 0.040613
    },
    {
      "epoch": 2.429742388758782,
      "grad_norm": 0.1817113608121872,
      "learning_rate": 1.9128670280765283e-06,
      "loss": 0.27490620613098143,
      "memory(GiB)": 137.67,
      "step": 2075,
      "token_acc": 0.8959030374086766,
      "train_speed(iter/s)": 0.040611
    },
    {
      "epoch": 2.4355971896955504,
      "grad_norm": 0.17148195207118988,
      "learning_rate": 1.8750602047161603e-06,
      "loss": 0.26430578231811525,
      "memory(GiB)": 137.67,
      "step": 2080,
      "token_acc": 0.9074351491670378,
      "train_speed(iter/s)": 0.040609
    },
    {
      "epoch": 2.4414519906323187,
      "grad_norm": 0.1715674251317978,
      "learning_rate": 1.8375920493684264e-06,
      "loss": 0.2722649574279785,
      "memory(GiB)": 137.67,
      "step": 2085,
      "token_acc": 0.8960112888052681,
      "train_speed(iter/s)": 0.040609
    },
    {
      "epoch": 2.4473067915690865,
      "grad_norm": 0.1820991337299347,
      "learning_rate": 1.8004641238006815e-06,
      "loss": 0.2675884485244751,
      "memory(GiB)": 137.67,
      "step": 2090,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 0.040607
    },
    {
      "epoch": 2.4531615925058547,
      "grad_norm": 0.1691906452178955,
      "learning_rate": 1.7636779755986443e-06,
      "loss": 0.2732096195220947,
      "memory(GiB)": 137.67,
      "step": 2095,
      "token_acc": 0.8958253626778894,
      "train_speed(iter/s)": 0.040605
    },
    {
      "epoch": 2.459016393442623,
      "grad_norm": 0.17061816155910492,
      "learning_rate": 1.7272351381018792e-06,
      "loss": 0.2712996482849121,
      "memory(GiB)": 137.67,
      "step": 2100,
      "token_acc": 0.8880485387880261,
      "train_speed(iter/s)": 0.040603
    },
    {
      "epoch": 2.4648711943793913,
      "grad_norm": 0.17594653367996216,
      "learning_rate": 1.6911371303399048e-06,
      "loss": 0.2586531162261963,
      "memory(GiB)": 137.67,
      "step": 2105,
      "token_acc": 0.9022650028060307,
      "train_speed(iter/s)": 0.0406
    },
    {
      "epoch": 2.470725995316159,
      "grad_norm": 0.18380020558834076,
      "learning_rate": 1.6553854569688632e-06,
      "loss": 0.2727813720703125,
      "memory(GiB)": 137.67,
      "step": 2110,
      "token_acc": 0.8974262645615947,
      "train_speed(iter/s)": 0.040598
    },
    {
      "epoch": 2.4765807962529274,
      "grad_norm": 0.16742826998233795,
      "learning_rate": 1.619981608208796e-06,
      "loss": 0.2734941244125366,
      "memory(GiB)": 137.67,
      "step": 2115,
      "token_acc": 0.8847918638392509,
      "train_speed(iter/s)": 0.040597
    },
    {
      "epoch": 2.4824355971896956,
      "grad_norm": 0.17516812682151794,
      "learning_rate": 1.584927059781548e-06,
      "loss": 0.2728161334991455,
      "memory(GiB)": 137.67,
      "step": 2120,
      "token_acc": 0.8936656628114019,
      "train_speed(iter/s)": 0.040595
    },
    {
      "epoch": 2.4882903981264635,
      "grad_norm": 0.17867887020111084,
      "learning_rate": 1.5502232728492362e-06,
      "loss": 0.264336085319519,
      "memory(GiB)": 137.67,
      "step": 2125,
      "token_acc": 0.9031589138208336,
      "train_speed(iter/s)": 0.040594
    },
    {
      "epoch": 2.4941451990632317,
      "grad_norm": 0.17173421382904053,
      "learning_rate": 1.5158716939533524e-06,
      "loss": 0.27242002487182615,
      "memory(GiB)": 137.67,
      "step": 2130,
      "token_acc": 0.8990930988723483,
      "train_speed(iter/s)": 0.040593
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.1708640456199646,
      "learning_rate": 1.4818737549544725e-06,
      "loss": 0.27319111824035647,
      "memory(GiB)": 137.67,
      "step": 2135,
      "token_acc": 0.8916305799253722,
      "train_speed(iter/s)": 0.040593
    },
    {
      "epoch": 2.5058548009367683,
      "grad_norm": 0.17307148873806,
      "learning_rate": 1.448230872972568e-06,
      "loss": 0.2695432424545288,
      "memory(GiB)": 137.67,
      "step": 2140,
      "token_acc": 0.905385863209386,
      "train_speed(iter/s)": 0.04059
    },
    {
      "epoch": 2.5117096018735365,
      "grad_norm": 0.17106083035469055,
      "learning_rate": 1.4149444503279297e-06,
      "loss": 0.27602252960205076,
      "memory(GiB)": 137.67,
      "step": 2145,
      "token_acc": 0.8923752322136868,
      "train_speed(iter/s)": 0.040589
    },
    {
      "epoch": 2.5175644028103044,
      "grad_norm": 0.17844541370868683,
      "learning_rate": 1.382015874482735e-06,
      "loss": 0.2688480615615845,
      "memory(GiB)": 137.67,
      "step": 2150,
      "token_acc": 0.8990480241183902,
      "train_speed(iter/s)": 0.040588
    },
    {
      "epoch": 2.5234192037470726,
      "grad_norm": 0.17703387141227722,
      "learning_rate": 1.3494465179831895e-06,
      "loss": 0.26667649745941163,
      "memory(GiB)": 137.67,
      "step": 2155,
      "token_acc": 0.8957748501946923,
      "train_speed(iter/s)": 0.040587
    },
    {
      "epoch": 2.529274004683841,
      "grad_norm": 0.1624777913093567,
      "learning_rate": 1.3172377384023393e-06,
      "loss": 0.26247563362121584,
      "memory(GiB)": 137.67,
      "step": 2160,
      "token_acc": 0.9005889918174871,
      "train_speed(iter/s)": 0.040586
    },
    {
      "epoch": 2.5351288056206087,
      "grad_norm": 0.17209553718566895,
      "learning_rate": 1.2853908782834722e-06,
      "loss": 0.2671672821044922,
      "memory(GiB)": 137.67,
      "step": 2165,
      "token_acc": 0.9070119235517494,
      "train_speed(iter/s)": 0.040583
    },
    {
      "epoch": 2.540983606557377,
      "grad_norm": 0.17611093819141388,
      "learning_rate": 1.2539072650841523e-06,
      "loss": 0.2725430250167847,
      "memory(GiB)": 137.67,
      "step": 2170,
      "token_acc": 0.8966264886593998,
      "train_speed(iter/s)": 0.040583
    },
    {
      "epoch": 2.5468384074941453,
      "grad_norm": 0.1783149093389511,
      "learning_rate": 1.2227882111209011e-06,
      "loss": 0.27568228244781495,
      "memory(GiB)": 137.67,
      "step": 2175,
      "token_acc": 0.8947381499658321,
      "train_speed(iter/s)": 0.040582
    },
    {
      "epoch": 2.552693208430913,
      "grad_norm": 0.17337878048419952,
      "learning_rate": 1.1920350135144898e-06,
      "loss": 0.269814133644104,
      "memory(GiB)": 137.67,
      "step": 2180,
      "token_acc": 0.9041164343092762,
      "train_speed(iter/s)": 0.040581
    },
    {
      "epoch": 2.5585480093676813,
      "grad_norm": 0.16845281422138214,
      "learning_rate": 1.1616489541358678e-06,
      "loss": 0.26679143905639646,
      "memory(GiB)": 137.67,
      "step": 2185,
      "token_acc": 0.8939169722162003,
      "train_speed(iter/s)": 0.04058
    },
    {
      "epoch": 2.5644028103044496,
      "grad_norm": 0.17022623121738434,
      "learning_rate": 1.1316312995527424e-06,
      "loss": 0.2700947761535645,
      "memory(GiB)": 137.67,
      "step": 2190,
      "token_acc": 0.8979253112033195,
      "train_speed(iter/s)": 0.040579
    },
    {
      "epoch": 2.570257611241218,
      "grad_norm": 0.16687875986099243,
      "learning_rate": 1.1019833009767744e-06,
      "loss": 0.268681001663208,
      "memory(GiB)": 137.67,
      "step": 2195,
      "token_acc": 0.8966215038230679,
      "train_speed(iter/s)": 0.040578
    },
    {
      "epoch": 2.576112412177986,
      "grad_norm": 0.17770424485206604,
      "learning_rate": 1.072706194211426e-06,
      "loss": 0.27028694152832033,
      "memory(GiB)": 137.67,
      "step": 2200,
      "token_acc": 0.9029025046417339,
      "train_speed(iter/s)": 0.040577
    },
    {
      "epoch": 2.581967213114754,
      "grad_norm": 0.17755696177482605,
      "learning_rate": 1.0438011996004581e-06,
      "loss": 0.269865894317627,
      "memory(GiB)": 137.67,
      "step": 2205,
      "token_acc": 0.8967394005666286,
      "train_speed(iter/s)": 0.040575
    },
    {
      "epoch": 2.5878220140515222,
      "grad_norm": 0.17752693593502045,
      "learning_rate": 1.0152695219770558e-06,
      "loss": 0.257364559173584,
      "memory(GiB)": 137.67,
      "step": 2210,
      "token_acc": 0.9068669110660224,
      "train_speed(iter/s)": 0.040573
    },
    {
      "epoch": 2.5936768149882905,
      "grad_norm": 0.16752499341964722,
      "learning_rate": 9.871123506136037e-07,
      "loss": 0.2638521194458008,
      "memory(GiB)": 137.67,
      "step": 2215,
      "token_acc": 0.9083980061833554,
      "train_speed(iter/s)": 0.040572
    },
    {
      "epoch": 2.5995316159250583,
      "grad_norm": 0.16032443940639496,
      "learning_rate": 9.593308591721274e-07,
      "loss": 0.2622210025787354,
      "memory(GiB)": 137.67,
      "step": 2220,
      "token_acc": 0.900316748757648,
      "train_speed(iter/s)": 0.040571
    },
    {
      "epoch": 2.6053864168618266,
      "grad_norm": 0.17415659129619598,
      "learning_rate": 9.319262056553602e-07,
      "loss": 0.2700244903564453,
      "memory(GiB)": 137.67,
      "step": 2225,
      "token_acc": 0.9051188644286028,
      "train_speed(iter/s)": 0.040569
    },
    {
      "epoch": 2.611241217798595,
      "grad_norm": 0.1722276359796524,
      "learning_rate": 9.048995323584764e-07,
      "loss": 0.2738530397415161,
      "memory(GiB)": 137.67,
      "step": 2230,
      "token_acc": 0.9079698943901274,
      "train_speed(iter/s)": 0.040568
    },
    {
      "epoch": 2.617096018735363,
      "grad_norm": 0.17455357313156128,
      "learning_rate": 8.78251965821485e-07,
      "loss": 0.25915350914001467,
      "memory(GiB)": 137.67,
      "step": 2235,
      "token_acc": 0.9004381754945836,
      "train_speed(iter/s)": 0.040566
    },
    {
      "epoch": 2.6229508196721314,
      "grad_norm": 0.17298012971878052,
      "learning_rate": 8.519846167822665e-07,
      "loss": 0.2638465404510498,
      "memory(GiB)": 137.67,
      "step": 2240,
      "token_acc": 0.9118884831119326,
      "train_speed(iter/s)": 0.040565
    },
    {
      "epoch": 2.628805620608899,
      "grad_norm": 0.1699805110692978,
      "learning_rate": 8.260985801302734e-07,
      "loss": 0.25593223571777346,
      "memory(GiB)": 137.67,
      "step": 2245,
      "token_acc": 0.8991087959330969,
      "train_speed(iter/s)": 0.040565
    },
    {
      "epoch": 2.6346604215456675,
      "grad_norm": 0.1722072809934616,
      "learning_rate": 8.005949348608977e-07,
      "loss": 0.2674243927001953,
      "memory(GiB)": 137.67,
      "step": 2250,
      "token_acc": 0.8965253065997911,
      "train_speed(iter/s)": 0.040563
    },
    {
      "epoch": 2.6405152224824358,
      "grad_norm": 0.1668199747800827,
      "learning_rate": 7.754747440304911e-07,
      "loss": 0.27177164554595945,
      "memory(GiB)": 137.67,
      "step": 2255,
      "token_acc": 0.8954008941320247,
      "train_speed(iter/s)": 0.040563
    },
    {
      "epoch": 2.6463700234192036,
      "grad_norm": 0.16813580691814423,
      "learning_rate": 7.507390547120541e-07,
      "loss": 0.2651193857192993,
      "memory(GiB)": 137.67,
      "step": 2260,
      "token_acc": 0.8984925665335315,
      "train_speed(iter/s)": 0.040562
    },
    {
      "epoch": 2.652224824355972,
      "grad_norm": 0.17678076028823853,
      "learning_rate": 7.263888979515954e-07,
      "loss": 0.27275819778442384,
      "memory(GiB)": 137.67,
      "step": 2265,
      "token_acc": 0.8936288874184706,
      "train_speed(iter/s)": 0.040562
    },
    {
      "epoch": 2.65807962529274,
      "grad_norm": 0.16264022886753082,
      "learning_rate": 7.024252887251548e-07,
      "loss": 0.2669191360473633,
      "memory(GiB)": 137.67,
      "step": 2270,
      "token_acc": 0.8972385552618926,
      "train_speed(iter/s)": 0.04056
    },
    {
      "epoch": 2.663934426229508,
      "grad_norm": 0.1690565049648285,
      "learning_rate": 6.788492258964896e-07,
      "loss": 0.2695984125137329,
      "memory(GiB)": 137.67,
      "step": 2275,
      "token_acc": 0.8963350061434133,
      "train_speed(iter/s)": 0.040559
    },
    {
      "epoch": 2.669789227166276,
      "grad_norm": 0.1730775386095047,
      "learning_rate": 6.556616921754489e-07,
      "loss": 0.26709651947021484,
      "memory(GiB)": 137.67,
      "step": 2280,
      "token_acc": 0.9004803898235022,
      "train_speed(iter/s)": 0.040558
    },
    {
      "epoch": 2.6756440281030445,
      "grad_norm": 0.1701081544160843,
      "learning_rate": 6.328636540770028e-07,
      "loss": 0.26933286190032957,
      "memory(GiB)": 137.67,
      "step": 2285,
      "token_acc": 0.898853457766213,
      "train_speed(iter/s)": 0.040557
    },
    {
      "epoch": 2.6814988290398127,
      "grad_norm": 0.19118832051753998,
      "learning_rate": 6.10456061880963e-07,
      "loss": 0.2741654396057129,
      "memory(GiB)": 137.67,
      "step": 2290,
      "token_acc": 0.9025216185680262,
      "train_speed(iter/s)": 0.040556
    },
    {
      "epoch": 2.687353629976581,
      "grad_norm": 0.17062994837760925,
      "learning_rate": 5.884398495923727e-07,
      "loss": 0.2640299558639526,
      "memory(GiB)": 137.67,
      "step": 2295,
      "token_acc": 0.8934425971755339,
      "train_speed(iter/s)": 0.040556
    },
    {
      "epoch": 2.693208430913349,
      "grad_norm": 0.18749327957630157,
      "learning_rate": 5.668159349025649e-07,
      "loss": 0.2795866966247559,
      "memory(GiB)": 137.67,
      "step": 2300,
      "token_acc": 0.8874596974206349,
      "train_speed(iter/s)": 0.040554
    },
    {
      "epoch": 2.699063231850117,
      "grad_norm": 0.1760568916797638,
      "learning_rate": 5.455852191509214e-07,
      "loss": 0.27616961002349855,
      "memory(GiB)": 137.67,
      "step": 2305,
      "token_acc": 0.8910418230197176,
      "train_speed(iter/s)": 0.040553
    },
    {
      "epoch": 2.7049180327868854,
      "grad_norm": 0.1760990172624588,
      "learning_rate": 5.247485872873026e-07,
      "loss": 0.26389687061309813,
      "memory(GiB)": 137.67,
      "step": 2310,
      "token_acc": 0.9032378371322547,
      "train_speed(iter/s)": 0.040552
    },
    {
      "epoch": 2.710772833723653,
      "grad_norm": 0.16184002161026,
      "learning_rate": 5.043069078351526e-07,
      "loss": 0.2583066463470459,
      "memory(GiB)": 137.67,
      "step": 2315,
      "token_acc": 0.9048499210110584,
      "train_speed(iter/s)": 0.040551
    },
    {
      "epoch": 2.7166276346604215,
      "grad_norm": 0.16953077912330627,
      "learning_rate": 4.842610328552999e-07,
      "loss": 0.26470949649810793,
      "memory(GiB)": 137.67,
      "step": 2320,
      "token_acc": 0.9023021945368386,
      "train_speed(iter/s)": 0.04055
    },
    {
      "epoch": 2.7224824355971897,
      "grad_norm": 0.16833004355430603,
      "learning_rate": 4.6461179791044806e-07,
      "loss": 0.26623120307922366,
      "memory(GiB)": 137.67,
      "step": 2325,
      "token_acc": 0.895680773698298,
      "train_speed(iter/s)": 0.04055
    },
    {
      "epoch": 2.728337236533958,
      "grad_norm": 0.1694810837507248,
      "learning_rate": 4.453600220303378e-07,
      "loss": 0.25267777442932127,
      "memory(GiB)": 137.67,
      "step": 2330,
      "token_acc": 0.8968080577917444,
      "train_speed(iter/s)": 0.04055
    },
    {
      "epoch": 2.7341920374707263,
      "grad_norm": 0.18032941222190857,
      "learning_rate": 4.2650650767761535e-07,
      "loss": 0.25408167839050294,
      "memory(GiB)": 137.67,
      "step": 2335,
      "token_acc": 0.9085095809749435,
      "train_speed(iter/s)": 0.040549
    },
    {
      "epoch": 2.740046838407494,
      "grad_norm": 0.18011276423931122,
      "learning_rate": 4.0805204071437953e-07,
      "loss": 0.27644264698028564,
      "memory(GiB)": 137.67,
      "step": 2340,
      "token_acc": 0.8965790537297598,
      "train_speed(iter/s)": 0.040547
    },
    {
      "epoch": 2.7459016393442623,
      "grad_norm": 0.16562311351299286,
      "learning_rate": 3.899973903694243e-07,
      "loss": 0.26986749172210694,
      "memory(GiB)": 137.67,
      "step": 2345,
      "token_acc": 0.9012060017454879,
      "train_speed(iter/s)": 0.040546
    },
    {
      "epoch": 2.7517564402810306,
      "grad_norm": 0.17436754703521729,
      "learning_rate": 3.72343309206179e-07,
      "loss": 0.26195201873779295,
      "memory(GiB)": 137.67,
      "step": 2350,
      "token_acc": 0.9009433222876742,
      "train_speed(iter/s)": 0.040545
    },
    {
      "epoch": 2.7576112412177984,
      "grad_norm": 0.1674078106880188,
      "learning_rate": 3.55090533091339e-07,
      "loss": 0.26260790824890134,
      "memory(GiB)": 137.67,
      "step": 2355,
      "token_acc": 0.9115999937809979,
      "train_speed(iter/s)": 0.040543
    },
    {
      "epoch": 2.7634660421545667,
      "grad_norm": 0.1657068282365799,
      "learning_rate": 3.382397811641858e-07,
      "loss": 0.25954129695892336,
      "memory(GiB)": 137.67,
      "step": 2360,
      "token_acc": 0.9021908567865544,
      "train_speed(iter/s)": 0.040543
    },
    {
      "epoch": 2.769320843091335,
      "grad_norm": 0.167274609208107,
      "learning_rate": 3.217917558066241e-07,
      "loss": 0.262769889831543,
      "memory(GiB)": 137.67,
      "step": 2365,
      "token_acc": 0.8952377080453587,
      "train_speed(iter/s)": 0.040542
    },
    {
      "epoch": 2.775175644028103,
      "grad_norm": 0.16418085992336273,
      "learning_rate": 3.057471426138958e-07,
      "loss": 0.2759857654571533,
      "memory(GiB)": 137.67,
      "step": 2370,
      "token_acc": 0.8904371253200432,
      "train_speed(iter/s)": 0.04054
    },
    {
      "epoch": 2.781030444964871,
      "grad_norm": 0.16312485933303833,
      "learning_rate": 2.901066103660033e-07,
      "loss": 0.26541569232940676,
      "memory(GiB)": 137.67,
      "step": 2375,
      "token_acc": 0.9018337335217314,
      "train_speed(iter/s)": 0.04054
    },
    {
      "epoch": 2.7868852459016393,
      "grad_norm": 0.17677490413188934,
      "learning_rate": 2.7487081099983435e-07,
      "loss": 0.27631726264953616,
      "memory(GiB)": 137.67,
      "step": 2380,
      "token_acc": 0.9002755878263168,
      "train_speed(iter/s)": 0.040539
    },
    {
      "epoch": 2.7927400468384076,
      "grad_norm": 0.1672162115573883,
      "learning_rate": 2.6004037958199167e-07,
      "loss": 0.26006388664245605,
      "memory(GiB)": 137.67,
      "step": 2385,
      "token_acc": 0.910639127168484,
      "train_speed(iter/s)": 0.040538
    },
    {
      "epoch": 2.798594847775176,
      "grad_norm": 0.1678304672241211,
      "learning_rate": 2.4561593428231165e-07,
      "loss": 0.26682395935058595,
      "memory(GiB)": 137.67,
      "step": 2390,
      "token_acc": 0.91889434727678,
      "train_speed(iter/s)": 0.040535
    },
    {
      "epoch": 2.8044496487119437,
      "grad_norm": 0.16077911853790283,
      "learning_rate": 2.3159807634811182e-07,
      "loss": 0.2570212364196777,
      "memory(GiB)": 137.67,
      "step": 2395,
      "token_acc": 0.9051587858378934,
      "train_speed(iter/s)": 0.040535
    },
    {
      "epoch": 2.810304449648712,
      "grad_norm": 0.16872599720954895,
      "learning_rate": 2.1798739007911517e-07,
      "loss": 0.27098655700683594,
      "memory(GiB)": 137.67,
      "step": 2400,
      "token_acc": 0.8959861646097005,
      "train_speed(iter/s)": 0.040533
    },
    {
      "epoch": 2.8161592505854802,
      "grad_norm": 0.16125863790512085,
      "learning_rate": 2.0478444280310206e-07,
      "loss": 0.26554141044616697,
      "memory(GiB)": 137.67,
      "step": 2405,
      "token_acc": 0.8993798050995196,
      "train_speed(iter/s)": 0.040533
    },
    {
      "epoch": 2.822014051522248,
      "grad_norm": 0.19162511825561523,
      "learning_rate": 1.919897848522656e-07,
      "loss": 0.26296229362487794,
      "memory(GiB)": 137.67,
      "step": 2410,
      "token_acc": 0.8993982865613145,
      "train_speed(iter/s)": 0.040532
    },
    {
      "epoch": 2.8278688524590163,
      "grad_norm": 0.20407338440418243,
      "learning_rate": 1.796039495402646e-07,
      "loss": 0.26827549934387207,
      "memory(GiB)": 137.67,
      "step": 2415,
      "token_acc": 0.9050311652650377,
      "train_speed(iter/s)": 0.04053
    },
    {
      "epoch": 2.8337236533957846,
      "grad_norm": 0.17013327777385712,
      "learning_rate": 1.6762745313999795e-07,
      "loss": 0.2727066516876221,
      "memory(GiB)": 137.67,
      "step": 2420,
      "token_acc": 0.8865242476220178,
      "train_speed(iter/s)": 0.040529
    },
    {
      "epoch": 2.839578454332553,
      "grad_norm": 0.1698453575372696,
      "learning_rate": 1.5606079486208846e-07,
      "loss": 0.2641671895980835,
      "memory(GiB)": 137.67,
      "step": 2425,
      "token_acc": 0.9000177898735047,
      "train_speed(iter/s)": 0.040529
    },
    {
      "epoch": 2.845433255269321,
      "grad_norm": 0.17142532765865326,
      "learning_rate": 1.449044568340663e-07,
      "loss": 0.2717731952667236,
      "memory(GiB)": 137.67,
      "step": 2430,
      "token_acc": 0.9031580860350494,
      "train_speed(iter/s)": 0.040528
    },
    {
      "epoch": 2.851288056206089,
      "grad_norm": 0.1803494244813919,
      "learning_rate": 1.3415890408027932e-07,
      "loss": 0.26016151905059814,
      "memory(GiB)": 137.67,
      "step": 2435,
      "token_acc": 0.9004292620366133,
      "train_speed(iter/s)": 0.040526
    },
    {
      "epoch": 2.857142857142857,
      "grad_norm": 0.17327673733234406,
      "learning_rate": 1.2382458450250657e-07,
      "loss": 0.2739871025085449,
      "memory(GiB)": 137.67,
      "step": 2440,
      "token_acc": 0.8937226907040563,
      "train_speed(iter/s)": 0.040526
    },
    {
      "epoch": 2.8629976580796255,
      "grad_norm": 0.1648455113172531,
      "learning_rate": 1.1390192886129304e-07,
      "loss": 0.26163692474365235,
      "memory(GiB)": 137.67,
      "step": 2445,
      "token_acc": 0.9109708459314515,
      "train_speed(iter/s)": 0.040525
    },
    {
      "epoch": 2.8688524590163933,
      "grad_norm": 0.17209313809871674,
      "learning_rate": 1.0439135075798634e-07,
      "loss": 0.2778321266174316,
      "memory(GiB)": 137.67,
      "step": 2450,
      "token_acc": 0.8971170667512587,
      "train_speed(iter/s)": 0.040525
    },
    {
      "epoch": 2.8747072599531616,
      "grad_norm": 0.16632598638534546,
      "learning_rate": 9.529324661750494e-08,
      "loss": 0.2714024305343628,
      "memory(GiB)": 137.67,
      "step": 2455,
      "token_acc": 0.8926179928835372,
      "train_speed(iter/s)": 0.040524
    },
    {
      "epoch": 2.88056206088993,
      "grad_norm": 0.17401184141635895,
      "learning_rate": 8.6607995671808e-08,
      "loss": 0.2663599967956543,
      "memory(GiB)": 137.67,
      "step": 2460,
      "token_acc": 0.8979368591641474,
      "train_speed(iter/s)": 0.040523
    },
    {
      "epoch": 2.8864168618266977,
      "grad_norm": 0.17087528109550476,
      "learning_rate": 7.833595994409248e-08,
      "loss": 0.2583767414093018,
      "memory(GiB)": 137.67,
      "step": 2465,
      "token_acc": 0.8988238974038161,
      "train_speed(iter/s)": 0.040522
    },
    {
      "epoch": 2.892271662763466,
      "grad_norm": 0.17502275109291077,
      "learning_rate": 7.047748423370193e-08,
      "loss": 0.27132668495178225,
      "memory(GiB)": 137.67,
      "step": 2470,
      "token_acc": 0.8950027089407572,
      "train_speed(iter/s)": 0.040522
    },
    {
      "epoch": 2.898126463700234,
      "grad_norm": 0.16457100212574005,
      "learning_rate": 6.303289610175233e-08,
      "loss": 0.262396240234375,
      "memory(GiB)": 137.67,
      "step": 2475,
      "token_acc": 0.9005705329153605,
      "train_speed(iter/s)": 0.040522
    },
    {
      "epoch": 2.9039812646370025,
      "grad_norm": 0.17186148464679718,
      "learning_rate": 5.6002505857480906e-08,
      "loss": 0.2651688098907471,
      "memory(GiB)": 137.67,
      "step": 2480,
      "token_acc": 0.903142540689707,
      "train_speed(iter/s)": 0.040521
    },
    {
      "epoch": 2.9098360655737707,
      "grad_norm": 0.16921843588352203,
      "learning_rate": 4.938660654530969e-08,
      "loss": 0.27781147956848146,
      "memory(GiB)": 137.67,
      "step": 2485,
      "token_acc": 0.8947337181986305,
      "train_speed(iter/s)": 0.040521
    },
    {
      "epoch": 2.9156908665105385,
      "grad_norm": 0.17168040573596954,
      "learning_rate": 4.318547393263317e-08,
      "loss": 0.27856767177581787,
      "memory(GiB)": 137.67,
      "step": 2490,
      "token_acc": 0.8994483098446597,
      "train_speed(iter/s)": 0.04052
    },
    {
      "epoch": 2.921545667447307,
      "grad_norm": 0.17257463932037354,
      "learning_rate": 3.739936649832188e-08,
      "loss": 0.26465725898742676,
      "memory(GiB)": 137.67,
      "step": 2495,
      "token_acc": 0.9003965374896801,
      "train_speed(iter/s)": 0.04052
    },
    {
      "epoch": 2.927400468384075,
      "grad_norm": 0.17007899284362793,
      "learning_rate": 3.2028525421946563e-08,
      "loss": 0.26408021450042723,
      "memory(GiB)": 137.67,
      "step": 2500,
      "token_acc": 0.9105243972950552,
      "train_speed(iter/s)": 0.04052
    },
    {
      "epoch": 2.933255269320843,
      "grad_norm": 0.16546528041362762,
      "learning_rate": 2.70731745737296e-08,
      "loss": 0.26817855834960935,
      "memory(GiB)": 137.67,
      "step": 2505,
      "token_acc": 0.9032225815017886,
      "train_speed(iter/s)": 0.040519
    },
    {
      "epoch": 2.939110070257611,
      "grad_norm": 0.1731211543083191,
      "learning_rate": 2.2533520505211294e-08,
      "loss": 0.26341302394866944,
      "memory(GiB)": 137.67,
      "step": 2510,
      "token_acc": 0.9048233016983017,
      "train_speed(iter/s)": 0.040519
    },
    {
      "epoch": 2.9449648711943794,
      "grad_norm": 0.16093143820762634,
      "learning_rate": 1.8409752440639027e-08,
      "loss": 0.25573346614837644,
      "memory(GiB)": 137.67,
      "step": 2515,
      "token_acc": 0.9019553343056392,
      "train_speed(iter/s)": 0.040518
    },
    {
      "epoch": 2.9508196721311473,
      "grad_norm": 0.16452209651470184,
      "learning_rate": 1.470204226908134e-08,
      "loss": 0.2707658767700195,
      "memory(GiB)": 137.67,
      "step": 2520,
      "token_acc": 0.904132819893002,
      "train_speed(iter/s)": 0.040517
    },
    {
      "epoch": 2.9566744730679155,
      "grad_norm": 0.1768556386232376,
      "learning_rate": 1.1410544537263645e-08,
      "loss": 0.27701735496520996,
      "memory(GiB)": 137.67,
      "step": 2525,
      "token_acc": 0.903024352910179,
      "train_speed(iter/s)": 0.040515
    },
    {
      "epoch": 2.962529274004684,
      "grad_norm": 0.16568534076213837,
      "learning_rate": 8.535396443124511e-09,
      "loss": 0.25813367366790774,
      "memory(GiB)": 137.67,
      "step": 2530,
      "token_acc": 0.9017673177727538,
      "train_speed(iter/s)": 0.040514
    },
    {
      "epoch": 2.968384074941452,
      "grad_norm": 0.16622532904148102,
      "learning_rate": 6.076717830098e-09,
      "loss": 0.260286283493042,
      "memory(GiB)": 137.67,
      "step": 2535,
      "token_acc": 0.9083364106929379,
      "train_speed(iter/s)": 0.040513
    },
    {
      "epoch": 2.9742388758782203,
      "grad_norm": 0.17745059728622437,
      "learning_rate": 4.034611182121007e-09,
      "loss": 0.26159353256225587,
      "memory(GiB)": 137.67,
      "step": 2540,
      "token_acc": 0.9072020079994492,
      "train_speed(iter/s)": 0.040512
    },
    {
      "epoch": 2.980093676814988,
      "grad_norm": 0.16991080343723297,
      "learning_rate": 2.40916161935445e-09,
      "loss": 0.26626038551330566,
      "memory(GiB)": 137.67,
      "step": 2545,
      "token_acc": 0.8986437875498561,
      "train_speed(iter/s)": 0.040511
    },
    {
      "epoch": 2.9859484777517564,
      "grad_norm": 0.16490155458450317,
      "learning_rate": 1.2004368946427758e-09,
      "loss": 0.2636513948440552,
      "memory(GiB)": 137.67,
      "step": 2550,
      "token_acc": 0.9014935708777286,
      "train_speed(iter/s)": 0.040511
    },
    {
      "epoch": 2.9918032786885247,
      "grad_norm": 0.1677451878786087,
      "learning_rate": 4.084873906851083e-10,
      "loss": 0.26745948791503904,
      "memory(GiB)": 137.67,
      "step": 2555,
      "token_acc": 0.9085500921651726,
      "train_speed(iter/s)": 0.04051
    },
    {
      "epoch": 2.9976580796252925,
      "grad_norm": 0.1645430028438568,
      "learning_rate": 3.334611793692766e-11,
      "loss": 0.26831555366516113,
      "memory(GiB)": 137.67,
      "step": 2560,
      "token_acc": 0.9117214925099609,
      "train_speed(iter/s)": 0.040508
    }
  ],
  "logging_steps": 5,
  "max_steps": 2562,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 1.0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3414295945805824.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}