{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 2562,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00117096018735363,
      "grad_norm": 4.268844127655029,
      "learning_rate": 1.5503875968992249e-07,
      "loss": 0.6057141423225403,
      "memory(GiB)": 127.52,
      "step": 1,
      "token_acc": 0.8403535163595337,
      "train_speed(iter/s)": 0.023362
    },
    {
      "epoch": 0.00585480093676815,
      "grad_norm": 4.00634765625,
      "learning_rate": 7.751937984496125e-07,
      "loss": 0.5714304447174072,
      "memory(GiB)": 127.52,
      "step": 5,
      "token_acc": 0.8414377559265664,
      "train_speed(iter/s)": 0.058165
    },
    {
      "epoch": 0.0117096018735363,
      "grad_norm": 3.714452028274536,
      "learning_rate": 1.550387596899225e-06,
      "loss": 0.5679570198059082,
      "memory(GiB)": 127.52,
      "step": 10,
      "token_acc": 0.8314816958517272,
      "train_speed(iter/s)": 0.072408
    },
    {
      "epoch": 0.01756440281030445,
      "grad_norm": 2.5877742767333984,
      "learning_rate": 2.3255813953488376e-06,
      "loss": 0.5387242317199707,
      "memory(GiB)": 127.52,
      "step": 15,
      "token_acc": 0.8362197181678389,
      "train_speed(iter/s)": 0.080114
    },
    {
      "epoch": 0.0234192037470726,
      "grad_norm": 1.0245263576507568,
      "learning_rate": 3.10077519379845e-06,
      "loss": 0.4778164863586426,
      "memory(GiB)": 127.52,
      "step": 20,
      "token_acc": 0.8409289456094262,
      "train_speed(iter/s)": 0.083991
    },
    {
      "epoch": 0.02927400468384075,
      "grad_norm": 1.0654064416885376,
      "learning_rate": 3.875968992248063e-06,
      "loss": 0.45667400360107424,
      "memory(GiB)": 127.52,
      "step": 25,
      "token_acc": 0.8518281248542258,
      "train_speed(iter/s)": 0.086554
    },
    {
      "epoch": 0.0351288056206089,
      "grad_norm": 0.5691505670547485,
      "learning_rate": 4.651162790697675e-06,
      "loss": 0.44004316329956056,
      "memory(GiB)": 127.52,
      "step": 30,
      "token_acc": 0.8520554823322664,
      "train_speed(iter/s)": 0.088726
    },
    {
      "epoch": 0.040983606557377046,
      "grad_norm": 0.5251653790473938,
      "learning_rate": 5.4263565891472865e-06,
      "loss": 0.43890109062194826,
      "memory(GiB)": 127.52,
      "step": 35,
      "token_acc": 0.8498815333197345,
      "train_speed(iter/s)": 0.090273
    },
    {
      "epoch": 0.0468384074941452,
      "grad_norm": 0.4052143096923828,
      "learning_rate": 6.2015503875969e-06,
      "loss": 0.41214742660522463,
      "memory(GiB)": 127.52,
      "step": 40,
      "token_acc": 0.8529612170691973,
      "train_speed(iter/s)": 0.091488
    },
    {
      "epoch": 0.05269320843091335,
      "grad_norm": 0.3396666944026947,
      "learning_rate": 6.976744186046513e-06,
      "loss": 0.423629093170166,
      "memory(GiB)": 127.52,
      "step": 45,
      "token_acc": 0.845838888731289,
      "train_speed(iter/s)": 0.092386
    },
    {
      "epoch": 0.0585480093676815,
      "grad_norm": 0.3074694573879242,
      "learning_rate": 7.751937984496126e-06,
      "loss": 0.41414508819580076,
      "memory(GiB)": 127.52,
      "step": 50,
      "token_acc": 0.8609199657045593,
      "train_speed(iter/s)": 0.0932
    },
    {
      "epoch": 0.06440281030444965,
      "grad_norm": 0.31701743602752686,
      "learning_rate": 8.527131782945736e-06,
      "loss": 0.4058098793029785,
      "memory(GiB)": 127.52,
      "step": 55,
      "token_acc": 0.8598621225118498,
      "train_speed(iter/s)": 0.093922
    },
    {
      "epoch": 0.0702576112412178,
      "grad_norm": 0.29167020320892334,
      "learning_rate": 9.30232558139535e-06,
      "loss": 0.42685737609863283,
      "memory(GiB)": 127.52,
      "step": 60,
      "token_acc": 0.8583035383662712,
      "train_speed(iter/s)": 0.09448
    },
    {
      "epoch": 0.07611241217798595,
      "grad_norm": 0.2796083092689514,
      "learning_rate": 1.0077519379844963e-05,
      "loss": 0.4080663681030273,
      "memory(GiB)": 127.52,
      "step": 65,
      "token_acc": 0.86975264356343,
      "train_speed(iter/s)": 0.095012
    },
    {
      "epoch": 0.08196721311475409,
      "grad_norm": 0.32925185561180115,
      "learning_rate": 1.0852713178294573e-05,
      "loss": 0.4072235584259033,
      "memory(GiB)": 127.52,
      "step": 70,
      "token_acc": 0.8576062541566801,
      "train_speed(iter/s)": 0.095364
    },
    {
      "epoch": 0.08782201405152225,
      "grad_norm": 0.29692476987838745,
      "learning_rate": 1.1627906976744187e-05,
      "loss": 0.4062563419342041,
      "memory(GiB)": 127.52,
      "step": 75,
      "token_acc": 0.8451938495195714,
      "train_speed(iter/s)": 0.0958
    },
    {
      "epoch": 0.0936768149882904,
      "grad_norm": 0.32430365681648254,
      "learning_rate": 1.24031007751938e-05,
      "loss": 0.4052871227264404,
      "memory(GiB)": 127.52,
      "step": 80,
      "token_acc": 0.8536078219242759,
      "train_speed(iter/s)": 0.096071
    },
    {
      "epoch": 0.09953161592505855,
      "grad_norm": 0.2918962240219116,
      "learning_rate": 1.3178294573643412e-05,
      "loss": 0.39542815685272215,
      "memory(GiB)": 127.52,
      "step": 85,
      "token_acc": 0.8758206774505389,
      "train_speed(iter/s)": 0.096477
    },
    {
      "epoch": 0.1053864168618267,
      "grad_norm": 0.30198103189468384,
      "learning_rate": 1.3953488372093025e-05,
      "loss": 0.4015383243560791,
      "memory(GiB)": 127.52,
      "step": 90,
      "token_acc": 0.8578144099246164,
      "train_speed(iter/s)": 0.096833
    },
    {
      "epoch": 0.11124121779859485,
      "grad_norm": 0.32643797993659973,
      "learning_rate": 1.4728682170542636e-05,
      "loss": 0.401915454864502,
      "memory(GiB)": 127.52,
      "step": 95,
      "token_acc": 0.8631059302340187,
      "train_speed(iter/s)": 0.097122
    },
    {
      "epoch": 0.117096018735363,
      "grad_norm": 0.3097076416015625,
      "learning_rate": 1.550387596899225e-05,
      "loss": 0.4027417182922363,
      "memory(GiB)": 127.52,
      "step": 100,
      "token_acc": 0.8636492034198335,
      "train_speed(iter/s)": 0.097418
    },
    {
      "epoch": 0.12295081967213115,
      "grad_norm": 0.28134772181510925,
      "learning_rate": 1.6279069767441862e-05,
      "loss": 0.39868090152740476,
      "memory(GiB)": 127.52,
      "step": 105,
      "token_acc": 0.8655913809126278,
      "train_speed(iter/s)": 0.0977
    },
    {
      "epoch": 0.1288056206088993,
      "grad_norm": 0.2668236196041107,
      "learning_rate": 1.7054263565891473e-05,
      "loss": 0.38587536811828616,
      "memory(GiB)": 127.52,
      "step": 110,
      "token_acc": 0.864132983946116,
      "train_speed(iter/s)": 0.09794
    },
    {
      "epoch": 0.13466042154566746,
      "grad_norm": 0.3235706686973572,
      "learning_rate": 1.7829457364341087e-05,
      "loss": 0.40470218658447266,
      "memory(GiB)": 127.52,
      "step": 115,
      "token_acc": 0.8720630828529737,
      "train_speed(iter/s)": 0.098141
    },
    {
      "epoch": 0.1405152224824356,
      "grad_norm": 0.2895485460758209,
      "learning_rate": 1.86046511627907e-05,
      "loss": 0.39603259563446047,
      "memory(GiB)": 127.52,
      "step": 120,
      "token_acc": 0.8639678736880146,
      "train_speed(iter/s)": 0.09831
    },
    {
      "epoch": 0.14637002341920374,
      "grad_norm": 0.3098626434803009,
      "learning_rate": 1.937984496124031e-05,
      "loss": 0.4097726821899414,
      "memory(GiB)": 127.52,
      "step": 125,
      "token_acc": 0.8581558732162836,
      "train_speed(iter/s)": 0.098474
    },
    {
      "epoch": 0.1522248243559719,
      "grad_norm": 0.35938969254493713,
      "learning_rate": 1.9999991663467044e-05,
      "loss": 0.4081538200378418,
      "memory(GiB)": 127.52,
      "step": 130,
      "token_acc": 0.8630013632327376,
      "train_speed(iter/s)": 0.098587
    },
    {
      "epoch": 0.15807962529274006,
      "grad_norm": 0.3397412896156311,
      "learning_rate": 1.9999699886272926e-05,
      "loss": 0.40991506576538084,
      "memory(GiB)": 127.52,
      "step": 135,
      "token_acc": 0.8502879675585575,
      "train_speed(iter/s)": 0.098664
    },
    {
      "epoch": 0.16393442622950818,
      "grad_norm": 0.32449835538864136,
      "learning_rate": 1.9998991296330317e-05,
      "loss": 0.40630359649658204,
      "memory(GiB)": 127.52,
      "step": 140,
      "token_acc": 0.8630894085796805,
      "train_speed(iter/s)": 0.098721
    },
    {
      "epoch": 0.16978922716627634,
      "grad_norm": 0.32687216997146606,
      "learning_rate": 1.9997865923175027e-05,
      "loss": 0.396761417388916,
      "memory(GiB)": 127.52,
      "step": 145,
      "token_acc": 0.8691767868585987,
      "train_speed(iter/s)": 0.09874
    },
    {
      "epoch": 0.1756440281030445,
      "grad_norm": 0.32365313172340393,
      "learning_rate": 1.999632381371545e-05,
      "loss": 0.40283679962158203,
      "memory(GiB)": 127.52,
      "step": 150,
      "token_acc": 0.8533993606842608,
      "train_speed(iter/s)": 0.09881
    },
    {
      "epoch": 0.18149882903981265,
      "grad_norm": 0.3086594343185425,
      "learning_rate": 1.999436503223061e-05,
      "loss": 0.4014937400817871,
      "memory(GiB)": 127.52,
      "step": 155,
      "token_acc": 0.8624249503342012,
      "train_speed(iter/s)": 0.098838
    },
    {
      "epoch": 0.1873536299765808,
      "grad_norm": 0.32935866713523865,
      "learning_rate": 1.9991989660367463e-05,
      "loss": 0.4079470634460449,
      "memory(GiB)": 127.52,
      "step": 160,
      "token_acc": 0.8470391967320465,
      "train_speed(iter/s)": 0.098876
    },
    {
      "epoch": 0.19320843091334894,
      "grad_norm": 0.27776622772216797,
      "learning_rate": 1.998919779713751e-05,
      "loss": 0.4115422248840332,
      "memory(GiB)": 127.52,
      "step": 165,
      "token_acc": 0.8531520964716057,
      "train_speed(iter/s)": 0.098931
    },
    {
      "epoch": 0.1990632318501171,
      "grad_norm": 0.28459489345550537,
      "learning_rate": 1.998598955891266e-05,
      "loss": 0.4005699634552002,
      "memory(GiB)": 127.52,
      "step": 170,
      "token_acc": 0.867363933744935,
      "train_speed(iter/s)": 0.099005
    },
    {
      "epoch": 0.20491803278688525,
      "grad_norm": 0.3174498379230499,
      "learning_rate": 1.9982365079420382e-05,
      "loss": 0.38856048583984376,
      "memory(GiB)": 127.52,
      "step": 175,
      "token_acc": 0.8610733940638768,
      "train_speed(iter/s)": 0.099065
    },
    {
      "epoch": 0.2107728337236534,
      "grad_norm": 0.30468112230300903,
      "learning_rate": 1.9978324509738147e-05,
      "loss": 0.392287540435791,
      "memory(GiB)": 127.52,
      "step": 180,
      "token_acc": 0.8659642567171478,
      "train_speed(iter/s)": 0.099132
    },
    {
      "epoch": 0.21662763466042154,
      "grad_norm": 0.31203576922416687,
      "learning_rate": 1.9973868018287093e-05,
      "loss": 0.3912659168243408,
      "memory(GiB)": 127.52,
      "step": 185,
      "token_acc": 0.8592000200480526,
      "train_speed(iter/s)": 0.099222
    },
    {
      "epoch": 0.2224824355971897,
      "grad_norm": 0.2872975766658783,
      "learning_rate": 1.9968995790825048e-05,
      "loss": 0.3968376159667969,
      "memory(GiB)": 127.52,
      "step": 190,
      "token_acc": 0.8492010693857249,
      "train_speed(iter/s)": 0.099228
    },
    {
      "epoch": 0.22833723653395785,
      "grad_norm": 0.3107975721359253,
      "learning_rate": 1.9963708030438754e-05,
      "loss": 0.39564805030822753,
      "memory(GiB)": 127.52,
      "step": 195,
      "token_acc": 0.8623048224402377,
      "train_speed(iter/s)": 0.099285
    },
    {
      "epoch": 0.234192037470726,
      "grad_norm": 0.33172452449798584,
      "learning_rate": 1.995800495753542e-05,
      "loss": 0.3955163240432739,
      "memory(GiB)": 127.52,
      "step": 200,
      "token_acc": 0.8543361827625122,
      "train_speed(iter/s)": 0.099318
    },
    {
      "epoch": 0.24004683840749413,
      "grad_norm": 0.4809193015098572,
      "learning_rate": 1.9951886809833537e-05,
      "loss": 0.40662593841552735,
      "memory(GiB)": 127.52,
      "step": 205,
      "token_acc": 0.8530674732086181,
      "train_speed(iter/s)": 0.099376
    },
    {
      "epoch": 0.2459016393442623,
      "grad_norm": 0.3544229567050934,
      "learning_rate": 1.9945353842352943e-05,
      "loss": 0.4021385669708252,
      "memory(GiB)": 127.52,
      "step": 210,
      "token_acc": 0.8561705450570045,
      "train_speed(iter/s)": 0.099425
    },
    {
      "epoch": 0.25175644028103045,
      "grad_norm": 0.336126446723938,
      "learning_rate": 1.9938406327404233e-05,
      "loss": 0.3979261159896851,
      "memory(GiB)": 127.52,
      "step": 215,
      "token_acc": 0.8645368893679286,
      "train_speed(iter/s)": 0.099503
    },
    {
      "epoch": 0.2576112412177986,
      "grad_norm": 0.33789604902267456,
      "learning_rate": 1.9931044554577373e-05,
      "loss": 0.3947408676147461,
      "memory(GiB)": 127.52,
      "step": 220,
      "token_acc": 0.8581383757515342,
      "train_speed(iter/s)": 0.099556
    },
    {
      "epoch": 0.26346604215456676,
      "grad_norm": 0.3256719708442688,
      "learning_rate": 1.992326883072965e-05,
      "loss": 0.39812633991241453,
      "memory(GiB)": 127.52,
      "step": 225,
      "token_acc": 0.8538002738372856,
      "train_speed(iter/s)": 0.099561
    },
    {
      "epoch": 0.2693208430913349,
      "grad_norm": 0.29769811034202576,
      "learning_rate": 1.991507947997287e-05,
      "loss": 0.40686187744140623,
      "memory(GiB)": 127.52,
      "step": 230,
      "token_acc": 0.8601537153116829,
      "train_speed(iter/s)": 0.099609
    },
    {
      "epoch": 0.275175644028103,
      "grad_norm": 0.30855706334114075,
      "learning_rate": 1.9906476843659866e-05,
      "loss": 0.40198640823364257,
      "memory(GiB)": 127.52,
      "step": 235,
      "token_acc": 0.8681018040834193,
      "train_speed(iter/s)": 0.099643
    },
    {
      "epoch": 0.2810304449648712,
      "grad_norm": 0.38956841826438904,
      "learning_rate": 1.989746128037024e-05,
      "loss": 0.3874382972717285,
      "memory(GiB)": 127.52,
      "step": 240,
      "token_acc": 0.8601923167422234,
      "train_speed(iter/s)": 0.099684
    },
    {
      "epoch": 0.28688524590163933,
      "grad_norm": 0.317061185836792,
      "learning_rate": 1.988803316589545e-05,
      "loss": 0.396057653427124,
      "memory(GiB)": 127.52,
      "step": 245,
      "token_acc": 0.8594824803587602,
      "train_speed(iter/s)": 0.099766
    },
    {
      "epoch": 0.2927400468384075,
      "grad_norm": 0.31615447998046875,
      "learning_rate": 1.987819289322311e-05,
      "loss": 0.39992465972900393,
      "memory(GiB)": 127.52,
      "step": 250,
      "token_acc": 0.858279346005983,
      "train_speed(iter/s)": 0.099854
    },
    {
      "epoch": 0.29859484777517564,
      "grad_norm": 0.32358142733573914,
      "learning_rate": 1.9867940872520646e-05,
      "loss": 0.40424213409423826,
      "memory(GiB)": 127.52,
      "step": 255,
      "token_acc": 0.8581384084126314,
      "train_speed(iter/s)": 0.09983
    },
    {
      "epoch": 0.3044496487119438,
      "grad_norm": 0.289928138256073,
      "learning_rate": 1.9857277531118173e-05,
      "loss": 0.3975801706314087,
      "memory(GiB)": 127.52,
      "step": 260,
      "token_acc": 0.8720583892069197,
      "train_speed(iter/s)": 0.099856
    },
    {
      "epoch": 0.31030444964871196,
      "grad_norm": 0.2990163266658783,
      "learning_rate": 1.9846203313490697e-05,
      "loss": 0.38855001926422117,
      "memory(GiB)": 127.52,
      "step": 265,
      "token_acc": 0.8751479791620219,
      "train_speed(iter/s)": 0.099904
    },
    {
      "epoch": 0.3161592505854801,
      "grad_norm": 0.3375948369503021,
      "learning_rate": 1.983471868123958e-05,
      "loss": 0.3869392156600952,
      "memory(GiB)": 127.52,
      "step": 270,
      "token_acc": 0.8583391727600954,
      "train_speed(iter/s)": 0.099986
    },
    {
      "epoch": 0.32201405152224827,
      "grad_norm": 0.31450051069259644,
      "learning_rate": 1.98228241130733e-05,
      "loss": 0.4127011775970459,
      "memory(GiB)": 127.52,
      "step": 275,
      "token_acc": 0.8624973560772896,
      "train_speed(iter/s)": 0.100024
    },
    {
      "epoch": 0.32786885245901637,
      "grad_norm": 0.30610159039497375,
      "learning_rate": 1.98105201047875e-05,
      "loss": 0.38500449657440183,
      "memory(GiB)": 127.52,
      "step": 280,
      "token_acc": 0.8676562826677817,
      "train_speed(iter/s)": 0.1001
    },
    {
      "epoch": 0.3337236533957845,
      "grad_norm": 0.29564493894577026,
      "learning_rate": 1.9797807169244326e-05,
      "loss": 0.39098482131958007,
      "memory(GiB)": 127.52,
      "step": 285,
      "token_acc": 0.8600835808177637,
      "train_speed(iter/s)": 0.100123
    },
    {
      "epoch": 0.3395784543325527,
      "grad_norm": 0.2966287136077881,
      "learning_rate": 1.9784685836351045e-05,
      "loss": 0.40611705780029295,
      "memory(GiB)": 127.52,
      "step": 290,
      "token_acc": 0.85560257646949,
      "train_speed(iter/s)": 0.100118
    },
    {
      "epoch": 0.34543325526932084,
      "grad_norm": 0.3238191604614258,
      "learning_rate": 1.9771156653037944e-05,
      "loss": 0.3969024419784546,
      "memory(GiB)": 127.52,
      "step": 295,
      "token_acc": 0.8581954258818798,
      "train_speed(iter/s)": 0.100158
    },
    {
      "epoch": 0.351288056206089,
      "grad_norm": 0.27766069769859314,
      "learning_rate": 1.975722018323556e-05,
      "loss": 0.38973977565765383,
      "memory(GiB)": 127.52,
      "step": 300,
      "token_acc": 0.8660634024604128,
      "train_speed(iter/s)": 0.100143
    },
    {
      "epoch": 0.35714285714285715,
      "grad_norm": 0.30145326256752014,
      "learning_rate": 1.974287700785116e-05,
      "loss": 0.3852071285247803,
      "memory(GiB)": 127.52,
      "step": 305,
      "token_acc": 0.8624855074734434,
      "train_speed(iter/s)": 0.100192
    },
    {
      "epoch": 0.3629976580796253,
      "grad_norm": 0.3129558563232422,
      "learning_rate": 1.9728127724744516e-05,
      "loss": 0.3764306306838989,
      "memory(GiB)": 127.52,
      "step": 310,
      "token_acc": 0.8621159494397087,
      "train_speed(iter/s)": 0.100188
    },
    {
      "epoch": 0.36885245901639346,
      "grad_norm": 0.28354689478874207,
      "learning_rate": 1.9712972948703006e-05,
      "loss": 0.4006787300109863,
      "memory(GiB)": 127.52,
      "step": 315,
      "token_acc": 0.8685145789802604,
      "train_speed(iter/s)": 0.100213
    },
    {
      "epoch": 0.3747072599531616,
      "grad_norm": 0.32204070687294006,
      "learning_rate": 1.9697413311415967e-05,
      "loss": 0.3947436332702637,
      "memory(GiB)": 127.52,
      "step": 320,
      "token_acc": 0.840712523808037,
      "train_speed(iter/s)": 0.100233
    },
    {
      "epoch": 0.3805620608899297,
      "grad_norm": 0.2838529944419861,
      "learning_rate": 1.9681449461448386e-05,
      "loss": 0.3909641981124878,
      "memory(GiB)": 127.52,
      "step": 325,
      "token_acc": 0.8644274332135604,
      "train_speed(iter/s)": 0.10024
    },
    {
      "epoch": 0.3864168618266979,
      "grad_norm": 0.2927788197994232,
      "learning_rate": 1.9665082064213856e-05,
      "loss": 0.3943678140640259,
      "memory(GiB)": 127.52,
      "step": 330,
      "token_acc": 0.8593159978638758,
      "train_speed(iter/s)": 0.100274
    },
    {
      "epoch": 0.39227166276346603,
      "grad_norm": 0.28758853673934937,
      "learning_rate": 1.9648311801946823e-05,
      "loss": 0.39302983283996584,
      "memory(GiB)": 127.52,
      "step": 335,
      "token_acc": 0.8576617952773522,
      "train_speed(iter/s)": 0.10031
    },
    {
      "epoch": 0.3981264637002342,
      "grad_norm": 0.32002732157707214,
      "learning_rate": 1.9631139373674188e-05,
      "loss": 0.3899127721786499,
      "memory(GiB)": 127.52,
      "step": 340,
      "token_acc": 0.859130068814327,
      "train_speed(iter/s)": 0.100326
    },
    {
      "epoch": 0.40398126463700235,
      "grad_norm": 0.29767319560050964,
      "learning_rate": 1.9613565495186126e-05,
      "loss": 0.38013973236083987,
      "memory(GiB)": 127.52,
      "step": 345,
      "token_acc": 0.8582271352459535,
      "train_speed(iter/s)": 0.100383
    },
    {
      "epoch": 0.4098360655737705,
      "grad_norm": 0.30334916710853577,
      "learning_rate": 1.9595590899006288e-05,
      "loss": 0.3990506649017334,
      "memory(GiB)": 127.52,
      "step": 350,
      "token_acc": 0.8646594498490017,
      "train_speed(iter/s)": 0.100383
    },
    {
      "epoch": 0.41569086651053866,
      "grad_norm": 0.27606984972953796,
      "learning_rate": 1.957721633436124e-05,
      "loss": 0.39636931419372556,
      "memory(GiB)": 127.52,
      "step": 355,
      "token_acc": 0.8610379971059329,
      "train_speed(iter/s)": 0.100374
    },
    {
      "epoch": 0.4215456674473068,
      "grad_norm": 0.2963041067123413,
      "learning_rate": 1.9558442567149244e-05,
      "loss": 0.3938555955886841,
      "memory(GiB)": 127.52,
      "step": 360,
      "token_acc": 0.8734277076877441,
      "train_speed(iter/s)": 0.100411
    },
    {
      "epoch": 0.4274004683840749,
      "grad_norm": 0.3044081926345825,
      "learning_rate": 1.953927037990834e-05,
      "loss": 0.4011641502380371,
      "memory(GiB)": 127.52,
      "step": 365,
      "token_acc": 0.8496909477706446,
      "train_speed(iter/s)": 0.100429
    },
    {
      "epoch": 0.4332552693208431,
      "grad_norm": 0.3151879906654358,
      "learning_rate": 1.9519700571783718e-05,
      "loss": 0.40146493911743164,
      "memory(GiB)": 127.52,
      "step": 370,
      "token_acc": 0.8655695668198701,
      "train_speed(iter/s)": 0.100402
    },
    {
      "epoch": 0.43911007025761123,
      "grad_norm": 0.30802202224731445,
      "learning_rate": 1.9499733958494405e-05,
      "loss": 0.3972816467285156,
      "memory(GiB)": 127.52,
      "step": 375,
      "token_acc": 0.8541561335505496,
      "train_speed(iter/s)": 0.100424
    },
    {
      "epoch": 0.4449648711943794,
      "grad_norm": 0.2896055579185486,
      "learning_rate": 1.947937137229928e-05,
      "loss": 0.39000208377838136,
      "memory(GiB)": 127.52,
      "step": 380,
      "token_acc": 0.8715701816495711,
      "train_speed(iter/s)": 0.10044
    },
    {
      "epoch": 0.45081967213114754,
      "grad_norm": 0.3016491234302521,
      "learning_rate": 1.9458613661962366e-05,
      "loss": 0.3910162687301636,
      "memory(GiB)": 127.52,
      "step": 385,
      "token_acc": 0.8739838931744026,
      "train_speed(iter/s)": 0.100469
    },
    {
      "epoch": 0.4566744730679157,
      "grad_norm": 0.29643046855926514,
      "learning_rate": 1.943746169271746e-05,
      "loss": 0.39229693412780764,
      "memory(GiB)": 127.52,
      "step": 390,
      "token_acc": 0.8722126097825781,
      "train_speed(iter/s)": 0.100449
    },
    {
      "epoch": 0.46252927400468385,
      "grad_norm": 0.27366167306900024,
      "learning_rate": 1.941591634623206e-05,
      "loss": 0.39676542282104493,
      "memory(GiB)": 127.52,
      "step": 395,
      "token_acc": 0.8644101402067695,
      "train_speed(iter/s)": 0.100471
    },
    {
      "epoch": 0.468384074941452,
      "grad_norm": 0.2772040069103241,
      "learning_rate": 1.9393978520570638e-05,
      "loss": 0.38228650093078614,
      "memory(GiB)": 127.52,
      "step": 400,
      "token_acc": 0.8660634050880627,
      "train_speed(iter/s)": 0.100525
    },
    {
      "epoch": 0.47423887587822017,
      "grad_norm": 0.27195385098457336,
      "learning_rate": 1.9371649130157166e-05,
      "loss": 0.3779789209365845,
      "memory(GiB)": 127.52,
      "step": 405,
      "token_acc": 0.8644070452060074,
      "train_speed(iter/s)": 0.100537
    },
    {
      "epoch": 0.48009367681498827,
      "grad_norm": 0.3120705783367157,
      "learning_rate": 1.9348929105737044e-05,
      "loss": 0.3843944549560547,
      "memory(GiB)": 127.52,
      "step": 410,
      "token_acc": 0.8640640315662635,
      "train_speed(iter/s)": 0.100541
    },
    {
      "epoch": 0.4859484777517564,
      "grad_norm": 0.30002740025520325,
      "learning_rate": 1.932581939433827e-05,
      "loss": 0.3987558841705322,
      "memory(GiB)": 127.52,
      "step": 415,
      "token_acc": 0.8650914968394279,
      "train_speed(iter/s)": 0.100546
    },
    {
      "epoch": 0.4918032786885246,
      "grad_norm": 0.2787948250770569,
      "learning_rate": 1.9302320959231997e-05,
      "loss": 0.3887160778045654,
      "memory(GiB)": 127.52,
      "step": 420,
      "token_acc": 0.8633874480548741,
      "train_speed(iter/s)": 0.100566
    },
    {
      "epoch": 0.49765807962529274,
      "grad_norm": 0.30231156945228577,
      "learning_rate": 1.927843477989234e-05,
      "loss": 0.38535680770874026,
      "memory(GiB)": 127.52,
      "step": 425,
      "token_acc": 0.8781958006354674,
      "train_speed(iter/s)": 0.100582
    },
    {
      "epoch": 0.5035128805620609,
      "grad_norm": 0.43067944049835205,
      "learning_rate": 1.9254161851955587e-05,
      "loss": 0.3992464065551758,
      "memory(GiB)": 127.52,
      "step": 430,
      "token_acc": 0.8681868917427511,
      "train_speed(iter/s)": 0.100614
    },
    {
      "epoch": 0.509367681498829,
      "grad_norm": 0.31797730922698975,
      "learning_rate": 1.9229503187178694e-05,
      "loss": 0.3914906978607178,
      "memory(GiB)": 127.52,
      "step": 435,
      "token_acc": 0.8623976908030916,
      "train_speed(iter/s)": 0.100629
    },
    {
      "epoch": 0.5152224824355972,
      "grad_norm": 0.3029649555683136,
      "learning_rate": 1.920445981339708e-05,
      "loss": 0.3909397840499878,
      "memory(GiB)": 127.52,
      "step": 440,
      "token_acc": 0.8603624171988666,
      "train_speed(iter/s)": 0.10065
    },
    {
      "epoch": 0.5210772833723654,
      "grad_norm": 0.30808401107788086,
      "learning_rate": 1.9179032774481822e-05,
      "loss": 0.38848447799682617,
      "memory(GiB)": 127.52,
      "step": 445,
      "token_acc": 0.8688334300638422,
      "train_speed(iter/s)": 0.10068
    },
    {
      "epoch": 0.5269320843091335,
      "grad_norm": 0.30352672934532166,
      "learning_rate": 1.9153223130296125e-05,
      "loss": 0.38553576469421386,
      "memory(GiB)": 127.52,
      "step": 450,
      "token_acc": 0.871061226654355,
      "train_speed(iter/s)": 0.100707
    },
    {
      "epoch": 0.5327868852459017,
      "grad_norm": 0.30111393332481384,
      "learning_rate": 1.9127031956651153e-05,
      "loss": 0.38896827697753905,
      "memory(GiB)": 127.52,
      "step": 455,
      "token_acc": 0.868666861524493,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 0.5386416861826698,
      "grad_norm": 0.3043946325778961,
      "learning_rate": 1.9100460345261175e-05,
      "loss": 0.4031389236450195,
      "memory(GiB)": 127.52,
      "step": 460,
      "token_acc": 0.8602805306930444,
      "train_speed(iter/s)": 0.10069
    },
    {
      "epoch": 0.544496487119438,
      "grad_norm": 0.3046748638153076,
      "learning_rate": 1.9073509403698062e-05,
      "loss": 0.3981820821762085,
      "memory(GiB)": 127.52,
      "step": 465,
      "token_acc": 0.8679260633787171,
      "train_speed(iter/s)": 0.100702
    },
    {
      "epoch": 0.550351288056206,
      "grad_norm": 0.31403180956840515,
      "learning_rate": 1.9046180255345142e-05,
      "loss": 0.3932758569717407,
      "memory(GiB)": 127.52,
      "step": 470,
      "token_acc": 0.8679127068807225,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 0.5562060889929742,
      "grad_norm": 0.29715070128440857,
      "learning_rate": 1.9018474039350342e-05,
      "loss": 0.3857383966445923,
      "memory(GiB)": 127.52,
      "step": 475,
      "token_acc": 0.8670612150699786,
      "train_speed(iter/s)": 0.100729
    },
    {
      "epoch": 0.5620608899297423,
      "grad_norm": 0.3304217755794525,
      "learning_rate": 1.899039191057872e-05,
      "loss": 0.3876671075820923,
      "memory(GiB)": 127.52,
      "step": 480,
      "token_acc": 0.8610883356974732,
      "train_speed(iter/s)": 0.100734
    },
    {
      "epoch": 0.5679156908665105,
      "grad_norm": 0.28700098395347595,
      "learning_rate": 1.8961935039564338e-05,
      "loss": 0.3859807252883911,
      "memory(GiB)": 127.52,
      "step": 485,
      "token_acc": 0.861040389753261,
      "train_speed(iter/s)": 0.100756
    },
    {
      "epoch": 0.5737704918032787,
      "grad_norm": 0.30889761447906494,
      "learning_rate": 1.8933104612461454e-05,
      "loss": 0.3886594772338867,
      "memory(GiB)": 127.52,
      "step": 490,
      "token_acc": 0.862199389425299,
      "train_speed(iter/s)": 0.100764
    },
    {
      "epoch": 0.5796252927400468,
      "grad_norm": 0.30002301931381226,
      "learning_rate": 1.8903901830995093e-05,
      "loss": 0.3925405740737915,
      "memory(GiB)": 127.52,
      "step": 495,
      "token_acc": 0.8591249033461787,
      "train_speed(iter/s)": 0.10076
    },
    {
      "epoch": 0.585480093676815,
      "grad_norm": 0.28031232953071594,
      "learning_rate": 1.8874327912410945e-05,
      "loss": 0.40421361923217775,
      "memory(GiB)": 127.52,
      "step": 500,
      "token_acc": 0.8617515420490447,
      "train_speed(iter/s)": 0.100788
    },
    {
      "epoch": 0.5913348946135831,
      "grad_norm": 0.27785587310791016,
      "learning_rate": 1.884438408942463e-05,
      "loss": 0.39117045402526857,
      "memory(GiB)": 127.52,
      "step": 505,
      "token_acc": 0.8509159982582465,
      "train_speed(iter/s)": 0.100792
    },
    {
      "epoch": 0.5971896955503513,
      "grad_norm": 0.26203179359436035,
      "learning_rate": 1.881407161017033e-05,
      "loss": 0.3850869655609131,
      "memory(GiB)": 127.52,
      "step": 510,
      "token_acc": 0.871426780341023,
      "train_speed(iter/s)": 0.100813
    },
    {
      "epoch": 0.6030444964871194,
      "grad_norm": 0.2775160074234009,
      "learning_rate": 1.8783391738148738e-05,
      "loss": 0.38030352592468264,
      "memory(GiB)": 127.52,
      "step": 515,
      "token_acc": 0.865779336694748,
      "train_speed(iter/s)": 0.100836
    },
    {
      "epoch": 0.6088992974238876,
      "grad_norm": 0.283777117729187,
      "learning_rate": 1.875234575217441e-05,
      "loss": 0.38051447868347166,
      "memory(GiB)": 127.52,
      "step": 520,
      "token_acc": 0.8643710911880905,
      "train_speed(iter/s)": 0.100855
    },
    {
      "epoch": 0.6147540983606558,
      "grad_norm": 0.2693696618080139,
      "learning_rate": 1.8720934946322466e-05,
      "loss": 0.3941120862960815,
      "memory(GiB)": 127.52,
      "step": 525,
      "token_acc": 0.8575597963261037,
      "train_speed(iter/s)": 0.10087
    },
    {
      "epoch": 0.6206088992974239,
      "grad_norm": 0.2502153515815735,
      "learning_rate": 1.8689160629874622e-05,
      "loss": 0.36350240707397463,
      "memory(GiB)": 127.52,
      "step": 530,
      "token_acc": 0.8788319745551232,
      "train_speed(iter/s)": 0.100858
    },
    {
      "epoch": 0.6264637002341921,
      "grad_norm": 0.2630903124809265,
      "learning_rate": 1.865702412726465e-05,
      "loss": 0.3757188081741333,
      "memory(GiB)": 127.52,
      "step": 535,
      "token_acc": 0.8759880681391801,
      "train_speed(iter/s)": 0.100883
    },
    {
      "epoch": 0.6323185011709602,
      "grad_norm": 0.2726694941520691,
      "learning_rate": 1.8624526778023142e-05,
      "loss": 0.3769080638885498,
      "memory(GiB)": 127.52,
      "step": 540,
      "token_acc": 0.8733085553248108,
      "train_speed(iter/s)": 0.100896
    },
    {
      "epoch": 0.6381733021077284,
      "grad_norm": 0.2886805832386017,
      "learning_rate": 1.85916699367217e-05,
      "loss": 0.3801791429519653,
      "memory(GiB)": 127.52,
      "step": 545,
      "token_acc": 0.8658838767809878,
      "train_speed(iter/s)": 0.100897
    },
    {
      "epoch": 0.6440281030444965,
      "grad_norm": 0.28697773814201355,
      "learning_rate": 1.855845497291646e-05,
      "loss": 0.3925698041915894,
      "memory(GiB)": 127.52,
      "step": 550,
      "token_acc": 0.8631926701668678,
      "train_speed(iter/s)": 0.100906
    },
    {
      "epoch": 0.6498829039812647,
      "grad_norm": 0.26602187752723694,
      "learning_rate": 1.8524883271091004e-05,
      "loss": 0.38099260330200196,
      "memory(GiB)": 127.52,
      "step": 555,
      "token_acc": 0.8710958004218123,
      "train_speed(iter/s)": 0.100905
    },
    {
      "epoch": 0.6557377049180327,
      "grad_norm": 0.2533867359161377,
      "learning_rate": 1.8490956230598668e-05,
      "loss": 0.3997593879699707,
      "memory(GiB)": 127.52,
      "step": 560,
      "token_acc": 0.8649844205573561,
      "train_speed(iter/s)": 0.100903
    },
    {
      "epoch": 0.6615925058548009,
      "grad_norm": 0.287895530462265,
      "learning_rate": 1.8456675265604183e-05,
      "loss": 0.3792722702026367,
      "memory(GiB)": 127.52,
      "step": 565,
      "token_acc": 0.8638586429067867,
      "train_speed(iter/s)": 0.100923
    },
    {
      "epoch": 0.667447306791569,
      "grad_norm": 0.30773329734802246,
      "learning_rate": 1.842204180502476e-05,
      "loss": 0.3829328536987305,
      "memory(GiB)": 127.52,
      "step": 570,
      "token_acc": 0.8727389815600163,
      "train_speed(iter/s)": 0.100938
    },
    {
      "epoch": 0.6733021077283372,
      "grad_norm": 0.30301594734191895,
      "learning_rate": 1.8387057292470517e-05,
      "loss": 0.39844498634338377,
      "memory(GiB)": 127.52,
      "step": 575,
      "token_acc": 0.8632732480308832,
      "train_speed(iter/s)": 0.100939
    },
    {
      "epoch": 0.6791569086651054,
      "grad_norm": 0.27384889125823975,
      "learning_rate": 1.8351723186184295e-05,
      "loss": 0.3866116523742676,
      "memory(GiB)": 127.52,
      "step": 580,
      "token_acc": 0.8537265892945595,
      "train_speed(iter/s)": 0.100945
    },
    {
      "epoch": 0.6850117096018735,
      "grad_norm": 0.300459086894989,
      "learning_rate": 1.8316040958980896e-05,
      "loss": 0.3856982707977295,
      "memory(GiB)": 127.52,
      "step": 585,
      "token_acc": 0.8774584957729205,
      "train_speed(iter/s)": 0.100955
    },
    {
      "epoch": 0.6908665105386417,
      "grad_norm": 0.32351046800613403,
      "learning_rate": 1.828001209818567e-05,
      "loss": 0.403375244140625,
      "memory(GiB)": 127.52,
      "step": 590,
      "token_acc": 0.8606907256499806,
      "train_speed(iter/s)": 0.100969
    },
    {
      "epoch": 0.6967213114754098,
      "grad_norm": 0.3171491324901581,
      "learning_rate": 1.8243638105572547e-05,
      "loss": 0.3851677656173706,
      "memory(GiB)": 127.52,
      "step": 595,
      "token_acc": 0.8713710233181722,
      "train_speed(iter/s)": 0.100978
    },
    {
      "epoch": 0.702576112412178,
      "grad_norm": 0.3137357532978058,
      "learning_rate": 1.82069204973014e-05,
      "loss": 0.3799635648727417,
      "memory(GiB)": 127.52,
      "step": 600,
      "token_acc": 0.8784900280426953,
      "train_speed(iter/s)": 0.101006
    },
    {
      "epoch": 0.7084309133489461,
      "grad_norm": 0.28434112668037415,
      "learning_rate": 1.816986080385489e-05,
      "loss": 0.40052270889282227,
      "memory(GiB)": 127.52,
      "step": 605,
      "token_acc": 0.8462195284773476,
      "train_speed(iter/s)": 0.101006
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 0.30604925751686096,
      "learning_rate": 1.813246056997465e-05,
      "loss": 0.3835596084594727,
      "memory(GiB)": 127.52,
      "step": 610,
      "token_acc": 0.8614169593452318,
      "train_speed(iter/s)": 0.101011
    },
    {
      "epoch": 0.7201405152224825,
      "grad_norm": 0.3114904463291168,
      "learning_rate": 1.809472135459688e-05,
      "loss": 0.38530282974243163,
      "memory(GiB)": 127.52,
      "step": 615,
      "token_acc": 0.8642289288270977,
      "train_speed(iter/s)": 0.101016
    },
    {
      "epoch": 0.7259953161592506,
      "grad_norm": 0.29733744263648987,
      "learning_rate": 1.8056644730787412e-05,
      "loss": 0.39410853385925293,
      "memory(GiB)": 127.52,
      "step": 620,
      "token_acc": 0.8700788764122717,
      "train_speed(iter/s)": 0.101043
    },
    {
      "epoch": 0.7318501170960188,
      "grad_norm": 0.28432950377464294,
      "learning_rate": 1.8018232285676092e-05,
      "loss": 0.3745533227920532,
      "memory(GiB)": 127.52,
      "step": 625,
      "token_acc": 0.8656255611667859,
      "train_speed(iter/s)": 0.101068
    },
    {
      "epoch": 0.7377049180327869,
      "grad_norm": 0.2615796625614166,
      "learning_rate": 1.797948562039066e-05,
      "loss": 0.3919194459915161,
      "memory(GiB)": 127.52,
      "step": 630,
      "token_acc": 0.8600643002591344,
      "train_speed(iter/s)": 0.101046
    },
    {
      "epoch": 0.7435597189695551,
      "grad_norm": 0.27267464995384216,
      "learning_rate": 1.7940406349989987e-05,
      "loss": 0.388127875328064,
      "memory(GiB)": 127.52,
      "step": 635,
      "token_acc": 0.8630637748223948,
      "train_speed(iter/s)": 0.10107
    },
    {
      "epoch": 0.7494145199063232,
      "grad_norm": 0.274472177028656,
      "learning_rate": 1.7900996103396772e-05,
      "loss": 0.38143386840820315,
      "memory(GiB)": 127.52,
      "step": 640,
      "token_acc": 0.8701312848988129,
      "train_speed(iter/s)": 0.101069
    },
    {
      "epoch": 0.7552693208430913,
      "grad_norm": 0.27030906081199646,
      "learning_rate": 1.7861256523329634e-05,
      "loss": 0.3786378145217896,
      "memory(GiB)": 127.52,
      "step": 645,
      "token_acc": 0.8602489884842826,
      "train_speed(iter/s)": 0.101063
    },
    {
      "epoch": 0.7611241217798594,
      "grad_norm": 0.2663189172744751,
      "learning_rate": 1.7821189266234647e-05,
      "loss": 0.38404848575592043,
      "memory(GiB)": 127.52,
      "step": 650,
      "token_acc": 0.8616431608743905,
      "train_speed(iter/s)": 0.10106
    },
    {
      "epoch": 0.7669789227166276,
      "grad_norm": 0.26061564683914185,
      "learning_rate": 1.7780796002216285e-05,
      "loss": 0.3781083822250366,
      "memory(GiB)": 127.52,
      "step": 655,
      "token_acc": 0.8578937981658266,
      "train_speed(iter/s)": 0.101068
    },
    {
      "epoch": 0.7728337236533958,
      "grad_norm": 0.2600330412387848,
      "learning_rate": 1.7740078414967817e-05,
      "loss": 0.3852128505706787,
      "memory(GiB)": 127.52,
      "step": 660,
      "token_acc": 0.872952104972653,
      "train_speed(iter/s)": 0.101073
    },
    {
      "epoch": 0.7786885245901639,
      "grad_norm": 0.27133384346961975,
      "learning_rate": 1.7699038201701132e-05,
      "loss": 0.37737174034118653,
      "memory(GiB)": 127.52,
      "step": 665,
      "token_acc": 0.8593767976691324,
      "train_speed(iter/s)": 0.101088
    },
    {
      "epoch": 0.7845433255269321,
      "grad_norm": 0.270047664642334,
      "learning_rate": 1.7657677073075968e-05,
      "loss": 0.38488593101501467,
      "memory(GiB)": 127.52,
      "step": 670,
      "token_acc": 0.8627122177041754,
      "train_speed(iter/s)": 0.101091
    },
    {
      "epoch": 0.7903981264637002,
      "grad_norm": 0.29772108793258667,
      "learning_rate": 1.761599675312864e-05,
      "loss": 0.3877399444580078,
      "memory(GiB)": 127.52,
      "step": 675,
      "token_acc": 0.8765810968128602,
      "train_speed(iter/s)": 0.101091
    },
    {
      "epoch": 0.7962529274004684,
      "grad_norm": 0.30914777517318726,
      "learning_rate": 1.7573998979200163e-05,
      "loss": 0.38101863861083984,
      "memory(GiB)": 127.52,
      "step": 680,
      "token_acc": 0.8670370510587819,
      "train_speed(iter/s)": 0.101106
    },
    {
      "epoch": 0.8021077283372365,
      "grad_norm": 0.24654199182987213,
      "learning_rate": 1.753168550186383e-05,
      "loss": 0.3897979259490967,
      "memory(GiB)": 127.52,
      "step": 685,
      "token_acc": 0.8695668499228697,
      "train_speed(iter/s)": 0.101113
    },
    {
      "epoch": 0.8079625292740047,
      "grad_norm": 0.268245667219162,
      "learning_rate": 1.7489058084852247e-05,
      "loss": 0.3852191686630249,
      "memory(GiB)": 127.52,
      "step": 690,
      "token_acc": 0.8590092968475919,
      "train_speed(iter/s)": 0.101108
    },
    {
      "epoch": 0.8138173302107728,
      "grad_norm": 0.2539999186992645,
      "learning_rate": 1.744611850498383e-05,
      "loss": 0.38076086044311525,
      "memory(GiB)": 127.52,
      "step": 695,
      "token_acc": 0.8692958838741554,
      "train_speed(iter/s)": 0.101093
    },
    {
      "epoch": 0.819672131147541,
      "grad_norm": 0.30060875415802,
      "learning_rate": 1.7402868552088724e-05,
      "loss": 0.37528285980224607,
      "memory(GiB)": 127.52,
      "step": 700,
      "token_acc": 0.863746098668577,
      "train_speed(iter/s)": 0.101099
    },
    {
      "epoch": 0.8255269320843092,
      "grad_norm": 0.2880835235118866,
      "learning_rate": 1.73593100289342e-05,
      "loss": 0.3839045286178589,
      "memory(GiB)": 127.52,
      "step": 705,
      "token_acc": 0.8606477737869129,
      "train_speed(iter/s)": 0.101117
    },
    {
      "epoch": 0.8313817330210773,
      "grad_norm": 0.27465176582336426,
      "learning_rate": 1.7315444751149533e-05,
      "loss": 0.38219666481018066,
      "memory(GiB)": 127.52,
      "step": 710,
      "token_acc": 0.866171235481518,
      "train_speed(iter/s)": 0.101137
    },
    {
      "epoch": 0.8372365339578455,
      "grad_norm": 0.2839786410331726,
      "learning_rate": 1.727127454715029e-05,
      "loss": 0.3815479755401611,
      "memory(GiB)": 127.52,
      "step": 715,
      "token_acc": 0.8742821134330966,
      "train_speed(iter/s)": 0.101149
    },
    {
      "epoch": 0.8430913348946136,
      "grad_norm": 0.31399768590927124,
      "learning_rate": 1.722680125806214e-05,
      "loss": 0.38201520442962644,
      "memory(GiB)": 127.52,
      "step": 720,
      "token_acc": 0.8587188600974719,
      "train_speed(iter/s)": 0.101155
    },
    {
      "epoch": 0.8489461358313818,
      "grad_norm": 0.3099398910999298,
      "learning_rate": 1.71820267376441e-05,
      "loss": 0.386704421043396,
      "memory(GiB)": 127.52,
      "step": 725,
      "token_acc": 0.8638798635493387,
      "train_speed(iter/s)": 0.101166
    },
    {
      "epoch": 0.8548009367681498,
      "grad_norm": 0.2707797884941101,
      "learning_rate": 1.7136952852211274e-05,
      "loss": 0.3908542156219482,
      "memory(GiB)": 127.52,
      "step": 730,
      "token_acc": 0.8531080479659894,
      "train_speed(iter/s)": 0.10118
    },
    {
      "epoch": 0.860655737704918,
      "grad_norm": 0.24912209808826447,
      "learning_rate": 1.7091581480557057e-05,
      "loss": 0.3775820732116699,
      "memory(GiB)": 127.52,
      "step": 735,
      "token_acc": 0.8631545113262953,
      "train_speed(iter/s)": 0.101187
    },
    {
      "epoch": 0.8665105386416861,
      "grad_norm": 0.2668187916278839,
      "learning_rate": 1.7045914513874815e-05,
      "loss": 0.39071335792541506,
      "memory(GiB)": 127.52,
      "step": 740,
      "token_acc": 0.863421279036421,
      "train_speed(iter/s)": 0.101213
    },
    {
      "epoch": 0.8723653395784543,
      "grad_norm": 0.24733468890190125,
      "learning_rate": 1.699995385567907e-05,
      "loss": 0.39272005558013917,
      "memory(GiB)": 127.52,
      "step": 745,
      "token_acc": 0.8545664531712299,
      "train_speed(iter/s)": 0.101244
    },
    {
      "epoch": 0.8782201405152225,
      "grad_norm": 0.2632930278778076,
      "learning_rate": 1.695370142172614e-05,
      "loss": 0.3845970630645752,
      "memory(GiB)": 127.52,
      "step": 750,
      "token_acc": 0.8612419217474074,
      "train_speed(iter/s)": 0.101242
    },
    {
      "epoch": 0.8840749414519906,
      "grad_norm": 0.26514074206352234,
      "learning_rate": 1.690715913993429e-05,
      "loss": 0.38790068626403806,
      "memory(GiB)": 127.52,
      "step": 755,
      "token_acc": 0.8648871034856036,
      "train_speed(iter/s)": 0.101244
    },
    {
      "epoch": 0.8899297423887588,
      "grad_norm": 0.26957836747169495,
      "learning_rate": 1.6860328950303392e-05,
      "loss": 0.36716523170471194,
      "memory(GiB)": 127.52,
      "step": 760,
      "token_acc": 0.8711639836976192,
      "train_speed(iter/s)": 0.101257
    },
    {
      "epoch": 0.8957845433255269,
      "grad_norm": 0.2675636410713196,
      "learning_rate": 1.6813212804834033e-05,
      "loss": 0.38340959548950193,
      "memory(GiB)": 127.52,
      "step": 765,
      "token_acc": 0.8579816582165225,
      "train_speed(iter/s)": 0.101264
    },
    {
      "epoch": 0.9016393442622951,
      "grad_norm": 0.26134225726127625,
      "learning_rate": 1.676581266744615e-05,
      "loss": 0.3752238988876343,
      "memory(GiB)": 127.52,
      "step": 770,
      "token_acc": 0.8638096187142661,
      "train_speed(iter/s)": 0.101274
    },
    {
      "epoch": 0.9074941451990632,
      "grad_norm": 0.2766994535923004,
      "learning_rate": 1.6718130513897207e-05,
      "loss": 0.37386231422424315,
      "memory(GiB)": 127.52,
      "step": 775,
      "token_acc": 0.8692816207520612,
      "train_speed(iter/s)": 0.10128
    },
    {
      "epoch": 0.9133489461358314,
      "grad_norm": 0.2736496329307556,
      "learning_rate": 1.667016833169979e-05,
      "loss": 0.3910179138183594,
      "memory(GiB)": 127.52,
      "step": 780,
      "token_acc": 0.8679116603442695,
      "train_speed(iter/s)": 0.101285
    },
    {
      "epoch": 0.9192037470725996,
      "grad_norm": 0.25334644317626953,
      "learning_rate": 1.6621928120038806e-05,
      "loss": 0.3837088346481323,
      "memory(GiB)": 127.52,
      "step": 785,
      "token_acc": 0.8568342264714894,
      "train_speed(iter/s)": 0.101285
    },
    {
      "epoch": 0.9250585480093677,
      "grad_norm": 0.2526282072067261,
      "learning_rate": 1.657341188968811e-05,
      "loss": 0.3741894721984863,
      "memory(GiB)": 127.52,
      "step": 790,
      "token_acc": 0.8600209680781232,
      "train_speed(iter/s)": 0.101298
    },
    {
      "epoch": 0.9309133489461359,
      "grad_norm": 0.2629476487636566,
      "learning_rate": 1.6524621662926733e-05,
      "loss": 0.3736875057220459,
      "memory(GiB)": 127.52,
      "step": 795,
      "token_acc": 0.8765449927636102,
      "train_speed(iter/s)": 0.101311
    },
    {
      "epoch": 0.936768149882904,
      "grad_norm": 0.26536864042282104,
      "learning_rate": 1.6475559473454558e-05,
      "loss": 0.3841824769973755,
      "memory(GiB)": 127.52,
      "step": 800,
      "token_acc": 0.8732290436835891,
      "train_speed(iter/s)": 0.101317
    },
    {
      "epoch": 0.9426229508196722,
      "grad_norm": 0.9267993569374084,
      "learning_rate": 1.6426227366307563e-05,
      "loss": 0.3876027584075928,
      "memory(GiB)": 127.52,
      "step": 805,
      "token_acc": 0.873662949476559,
      "train_speed(iter/s)": 0.10131
    },
    {
      "epoch": 0.9484777517564403,
      "grad_norm": 0.31513214111328125,
      "learning_rate": 1.6376627397772576e-05,
      "loss": 0.38577656745910643,
      "memory(GiB)": 127.52,
      "step": 810,
      "token_acc": 0.8582883611177872,
      "train_speed(iter/s)": 0.101308
    },
    {
      "epoch": 0.9543325526932084,
      "grad_norm": 0.43881845474243164,
      "learning_rate": 1.6326761635301572e-05,
      "loss": 0.3793084383010864,
      "memory(GiB)": 127.52,
      "step": 815,
      "token_acc": 0.8658072630089608,
      "train_speed(iter/s)": 0.101317
    },
    {
      "epoch": 0.9601873536299765,
      "grad_norm": 0.2627616822719574,
      "learning_rate": 1.6276632157425475e-05,
      "loss": 0.3868673801422119,
      "memory(GiB)": 127.52,
      "step": 820,
      "token_acc": 0.8609059346385673,
      "train_speed(iter/s)": 0.101319
    },
    {
      "epoch": 0.9660421545667447,
      "grad_norm": 0.28743499517440796,
      "learning_rate": 1.6226241053667536e-05,
      "loss": 0.39165661334991453,
      "memory(GiB)": 127.52,
      "step": 825,
      "token_acc": 0.8566733687511922,
      "train_speed(iter/s)": 0.101328
    },
    {
      "epoch": 0.9718969555035128,
      "grad_norm": 0.2647303640842438,
      "learning_rate": 1.617559042445625e-05,
      "loss": 0.3914238929748535,
      "memory(GiB)": 127.52,
      "step": 830,
      "token_acc": 0.8686447332876824,
      "train_speed(iter/s)": 0.101331
    },
    {
      "epoch": 0.977751756440281,
      "grad_norm": 0.28214219212532043,
      "learning_rate": 1.6124682381037767e-05,
      "loss": 0.3775761127471924,
      "memory(GiB)": 127.52,
      "step": 835,
      "token_acc": 0.8658163872414246,
      "train_speed(iter/s)": 0.101335
    },
    {
      "epoch": 0.9836065573770492,
      "grad_norm": 0.2978610694408417,
      "learning_rate": 1.607351904538792e-05,
      "loss": 0.39282917976379395,
      "memory(GiB)": 127.52,
      "step": 840,
      "token_acc": 0.866700342369647,
      "train_speed(iter/s)": 0.101325
    },
    {
      "epoch": 0.9894613583138173,
      "grad_norm": 0.2674395740032196,
      "learning_rate": 1.6022102550123775e-05,
      "loss": 0.3796736240386963,
      "memory(GiB)": 127.52,
      "step": 845,
      "token_acc": 0.8609281823639752,
      "train_speed(iter/s)": 0.101326
    },
    {
      "epoch": 0.9953161592505855,
      "grad_norm": 0.2766255736351013,
      "learning_rate": 1.597043503841471e-05,
      "loss": 0.3800792217254639,
      "memory(GiB)": 127.52,
      "step": 850,
      "token_acc": 0.8745568192822268,
      "train_speed(iter/s)": 0.101325
    },
    {
      "epoch": 1.0011709601873535,
      "grad_norm": 0.36053553223609924,
      "learning_rate": 1.5918518663893124e-05,
      "loss": 0.3734774589538574,
      "memory(GiB)": 127.52,
      "step": 855,
      "token_acc": 0.8709147849019284,
      "train_speed(iter/s)": 0.100996
    },
    {
      "epoch": 1.0070257611241218,
      "grad_norm": 0.29508745670318604,
      "learning_rate": 1.5866355590564637e-05,
      "loss": 0.3578346252441406,
      "memory(GiB)": 127.52,
      "step": 860,
      "token_acc": 0.8851065028386151,
      "train_speed(iter/s)": 0.100988
    },
    {
      "epoch": 1.0128805620608898,
      "grad_norm": 0.30008167028427124,
      "learning_rate": 1.5813947992717894e-05,
      "loss": 0.34525480270385744,
      "memory(GiB)": 127.52,
      "step": 865,
      "token_acc": 0.8753548176879359,
      "train_speed(iter/s)": 0.10098
    },
    {
      "epoch": 1.018735362997658,
      "grad_norm": 0.2938152253627777,
      "learning_rate": 1.5761298054833947e-05,
      "loss": 0.3546164035797119,
      "memory(GiB)": 127.52,
      "step": 870,
      "token_acc": 0.8762193571592467,
      "train_speed(iter/s)": 0.100965
    },
    {
      "epoch": 1.0245901639344261,
      "grad_norm": 0.27178069949150085,
      "learning_rate": 1.5708407971495195e-05,
      "loss": 0.3612537384033203,
      "memory(GiB)": 127.52,
      "step": 875,
      "token_acc": 0.8722169198754557,
      "train_speed(iter/s)": 0.100976
    },
    {
      "epoch": 1.0304449648711944,
      "grad_norm": 0.2759335935115814,
      "learning_rate": 1.565527994729389e-05,
      "loss": 0.3513669967651367,
      "memory(GiB)": 127.52,
      "step": 880,
      "token_acc": 0.8818436745370559,
      "train_speed(iter/s)": 0.100984
    },
    {
      "epoch": 1.0362997658079625,
      "grad_norm": 0.2735261917114258,
      "learning_rate": 1.5601916196740283e-05,
      "loss": 0.3473806858062744,
      "memory(GiB)": 127.52,
      "step": 885,
      "token_acc": 0.8784491835740441,
      "train_speed(iter/s)": 0.100979
    },
    {
      "epoch": 1.0421545667447307,
      "grad_norm": 0.28892189264297485,
      "learning_rate": 1.5548318944170276e-05,
      "loss": 0.3433929443359375,
      "memory(GiB)": 127.52,
      "step": 890,
      "token_acc": 0.8839334112478968,
      "train_speed(iter/s)": 0.100971
    },
    {
      "epoch": 1.0480093676814988,
      "grad_norm": 0.2602222263813019,
      "learning_rate": 1.5494490423652732e-05,
      "loss": 0.3427423000335693,
      "memory(GiB)": 127.52,
      "step": 895,
      "token_acc": 0.876471048390882,
      "train_speed(iter/s)": 0.100951
    },
    {
      "epoch": 1.053864168618267,
      "grad_norm": 0.2913144528865814,
      "learning_rate": 1.544043287889635e-05,
      "loss": 0.3336780071258545,
      "memory(GiB)": 127.52,
      "step": 900,
      "token_acc": 0.8869567959634185,
      "train_speed(iter/s)": 0.10095
    },
    {
      "epoch": 1.059718969555035,
      "grad_norm": 0.2634846270084381,
      "learning_rate": 1.538614856315614e-05,
      "loss": 0.3489675998687744,
      "memory(GiB)": 127.52,
      "step": 905,
      "token_acc": 0.8832413903915163,
      "train_speed(iter/s)": 0.100958
    },
    {
      "epoch": 1.0655737704918034,
      "grad_norm": 0.2699672281742096,
      "learning_rate": 1.5331639739139477e-05,
      "loss": 0.3432894229888916,
      "memory(GiB)": 127.52,
      "step": 910,
      "token_acc": 0.8669136816431162,
      "train_speed(iter/s)": 0.100951
    },
    {
      "epoch": 1.0714285714285714,
      "grad_norm": 0.2946908175945282,
      "learning_rate": 1.5276908678911837e-05,
      "loss": 0.3399630546569824,
      "memory(GiB)": 127.52,
      "step": 915,
      "token_acc": 0.8821736748390632,
      "train_speed(iter/s)": 0.100953
    },
    {
      "epoch": 1.0772833723653397,
      "grad_norm": 0.31119436025619507,
      "learning_rate": 1.5221957663802043e-05,
      "loss": 0.3506146430969238,
      "memory(GiB)": 127.52,
      "step": 920,
      "token_acc": 0.8818868935608091,
      "train_speed(iter/s)": 0.100935
    },
    {
      "epoch": 1.0831381733021077,
      "grad_norm": 0.27400681376457214,
      "learning_rate": 1.5166788984307204e-05,
      "loss": 0.35775036811828614,
      "memory(GiB)": 127.52,
      "step": 925,
      "token_acc": 0.8750959445346218,
      "train_speed(iter/s)": 0.100931
    },
    {
      "epoch": 1.088992974238876,
      "grad_norm": 0.3916493058204651,
      "learning_rate": 1.5111404939997227e-05,
      "loss": 0.3546015739440918,
      "memory(GiB)": 127.52,
      "step": 930,
      "token_acc": 0.8738711676022755,
      "train_speed(iter/s)": 0.100933
    },
    {
      "epoch": 1.094847775175644,
      "grad_norm": 0.3681865930557251,
      "learning_rate": 1.5055807839418966e-05,
      "loss": 0.33371834754943847,
      "memory(GiB)": 127.52,
      "step": 935,
      "token_acc": 0.8814006570111667,
      "train_speed(iter/s)": 0.100931
    },
    {
      "epoch": 1.100702576112412,
      "grad_norm": 0.27416518330574036,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.3561122417449951,
      "memory(GiB)": 127.52,
      "step": 940,
      "token_acc": 0.8838524966358717,
      "train_speed(iter/s)": 0.100932
    },
    {
      "epoch": 1.1065573770491803,
      "grad_norm": 0.2653830349445343,
      "learning_rate": 1.494398374795204e-05,
      "loss": 0.3430471897125244,
      "memory(GiB)": 127.52,
      "step": 945,
      "token_acc": 0.8739330062998951,
      "train_speed(iter/s)": 0.100924
    },
    {
      "epoch": 1.1124121779859484,
      "grad_norm": 0.29074740409851074,
      "learning_rate": 1.4887761418173947e-05,
      "loss": 0.36190090179443357,
      "memory(GiB)": 127.52,
      "step": 950,
      "token_acc": 0.8833006769910948,
      "train_speed(iter/s)": 0.100919
    },
    {
      "epoch": 1.1182669789227166,
      "grad_norm": 0.2751435339450836,
      "learning_rate": 1.4831335354154444e-05,
      "loss": 0.34648761749267576,
      "memory(GiB)": 127.52,
      "step": 955,
      "token_acc": 0.8776634838921327,
      "train_speed(iter/s)": 0.100926
    },
    {
      "epoch": 1.1241217798594847,
      "grad_norm": 0.2628922164440155,
      "learning_rate": 1.4774707907874392e-05,
      "loss": 0.34562859535217283,
      "memory(GiB)": 127.52,
      "step": 960,
      "token_acc": 0.8836736799002247,
      "train_speed(iter/s)": 0.100911
    },
    {
      "epoch": 1.129976580796253,
      "grad_norm": 0.2639271020889282,
      "learning_rate": 1.4717881439708786e-05,
      "loss": 0.34596388339996337,
      "memory(GiB)": 127.52,
      "step": 965,
      "token_acc": 0.8673695686030214,
      "train_speed(iter/s)": 0.100909
    },
    {
      "epoch": 1.135831381733021,
      "grad_norm": 0.28422874212265015,
      "learning_rate": 1.4660858318328348e-05,
      "loss": 0.3498117446899414,
      "memory(GiB)": 127.52,
      "step": 970,
      "token_acc": 0.866499586445358,
      "train_speed(iter/s)": 0.100888
    },
    {
      "epoch": 1.1416861826697893,
      "grad_norm": 0.2625197470188141,
      "learning_rate": 1.4603640920600813e-05,
      "loss": 0.35533895492553713,
      "memory(GiB)": 127.52,
      "step": 975,
      "token_acc": 0.8624783775908141,
      "train_speed(iter/s)": 0.100863
    },
    {
      "epoch": 1.1475409836065573,
      "grad_norm": 0.2902534008026123,
      "learning_rate": 1.4546231631491827e-05,
      "loss": 0.35151519775390627,
      "memory(GiB)": 127.52,
      "step": 980,
      "token_acc": 0.871260222085633,
      "train_speed(iter/s)": 0.100833
    },
    {
      "epoch": 1.1533957845433256,
      "grad_norm": 0.2525332570075989,
      "learning_rate": 1.4488632843965573e-05,
      "loss": 0.3441092729568481,
      "memory(GiB)": 127.52,
      "step": 985,
      "token_acc": 0.8626160602258469,
      "train_speed(iter/s)": 0.100824
    },
    {
      "epoch": 1.1592505854800936,
      "grad_norm": 0.26731306314468384,
      "learning_rate": 1.4430846958884995e-05,
      "loss": 0.3539264678955078,
      "memory(GiB)": 127.52,
      "step": 990,
      "token_acc": 0.8706765643432645,
      "train_speed(iter/s)": 0.100815
    },
    {
      "epoch": 1.165105386416862,
      "grad_norm": 0.2605798542499542,
      "learning_rate": 1.4372876384911741e-05,
      "loss": 0.35328848361968995,
      "memory(GiB)": 127.52,
      "step": 995,
      "token_acc": 0.8729384617783252,
      "train_speed(iter/s)": 0.100809
    },
    {
      "epoch": 1.17096018735363,
      "grad_norm": 0.2707096338272095,
      "learning_rate": 1.4314723538405752e-05,
      "loss": 0.36124861240386963,
      "memory(GiB)": 127.52,
      "step": 1000,
      "token_acc": 0.8623729975690332,
      "train_speed(iter/s)": 0.100795
    },
    {
      "epoch": 1.1768149882903982,
      "grad_norm": 0.26851606369018555,
      "learning_rate": 1.4256390843324556e-05,
      "loss": 0.35548346042633056,
      "memory(GiB)": 127.52,
      "step": 1005,
      "token_acc": 0.868687436031853,
      "train_speed(iter/s)": 0.100786
    },
    {
      "epoch": 1.1826697892271663,
      "grad_norm": 0.27084365487098694,
      "learning_rate": 1.4197880731122221e-05,
      "loss": 0.351657772064209,
      "memory(GiB)": 127.52,
      "step": 1010,
      "token_acc": 0.8682709314201729,
      "train_speed(iter/s)": 0.100787
    },
    {
      "epoch": 1.1885245901639343,
      "grad_norm": 0.27497202157974243,
      "learning_rate": 1.4139195640648008e-05,
      "loss": 0.355600380897522,
      "memory(GiB)": 127.52,
      "step": 1015,
      "token_acc": 0.8803992028496556,
      "train_speed(iter/s)": 0.10078
    },
    {
      "epoch": 1.1943793911007026,
      "grad_norm": 0.2708893418312073,
      "learning_rate": 1.4080338018044712e-05,
      "loss": 0.3596624851226807,
      "memory(GiB)": 127.52,
      "step": 1020,
      "token_acc": 0.8694279635903098,
      "train_speed(iter/s)": 0.100784
    },
    {
      "epoch": 1.2002341920374708,
      "grad_norm": 0.32129156589508057,
      "learning_rate": 1.4021310316646708e-05,
      "loss": 0.3490485668182373,
      "memory(GiB)": 127.52,
      "step": 1025,
      "token_acc": 0.8754893595663521,
      "train_speed(iter/s)": 0.100766
    },
    {
      "epoch": 1.2060889929742389,
      "grad_norm": 0.25467485189437866,
      "learning_rate": 1.3962114996877685e-05,
      "loss": 0.3347738981246948,
      "memory(GiB)": 127.52,
      "step": 1030,
      "token_acc": 0.8824631079656678,
      "train_speed(iter/s)": 0.100756
    },
    {
      "epoch": 1.211943793911007,
      "grad_norm": 0.2674933671951294,
      "learning_rate": 1.390275452614808e-05,
      "loss": 0.338185977935791,
      "memory(GiB)": 127.52,
      "step": 1035,
      "token_acc": 0.8744415325096718,
      "train_speed(iter/s)": 0.100755
    },
    {
      "epoch": 1.2177985948477752,
      "grad_norm": 0.2707443833351135,
      "learning_rate": 1.3843231378752252e-05,
      "loss": 0.3448366165161133,
      "memory(GiB)": 127.52,
      "step": 1040,
      "token_acc": 0.8736029828057016,
      "train_speed(iter/s)": 0.100747
    },
    {
      "epoch": 1.2236533957845432,
      "grad_norm": 0.24581725895404816,
      "learning_rate": 1.3783548035765327e-05,
      "loss": 0.34962687492370603,
      "memory(GiB)": 127.52,
      "step": 1045,
      "token_acc": 0.8796080775037746,
      "train_speed(iter/s)": 0.100757
    },
    {
      "epoch": 1.2295081967213115,
      "grad_norm": 0.2379993051290512,
      "learning_rate": 1.3723706984939783e-05,
      "loss": 0.33640050888061523,
      "memory(GiB)": 127.52,
      "step": 1050,
      "token_acc": 0.8721236366123021,
      "train_speed(iter/s)": 0.100739
    },
    {
      "epoch": 1.2353629976580796,
      "grad_norm": 0.26605796813964844,
      "learning_rate": 1.366371072060177e-05,
      "loss": 0.3490384340286255,
      "memory(GiB)": 127.52,
      "step": 1055,
      "token_acc": 0.862867230488973,
      "train_speed(iter/s)": 0.100731
    },
    {
      "epoch": 1.2412177985948478,
      "grad_norm": 0.25522705912590027,
      "learning_rate": 1.3603561743547125e-05,
      "loss": 0.34296507835388185,
      "memory(GiB)": 127.52,
      "step": 1060,
      "token_acc": 0.8687898169167538,
      "train_speed(iter/s)": 0.100739
    },
    {
      "epoch": 1.2470725995316159,
      "grad_norm": 0.2729935348033905,
      "learning_rate": 1.3543262560937135e-05,
      "loss": 0.34846017360687254,
      "memory(GiB)": 127.52,
      "step": 1065,
      "token_acc": 0.8741769020279135,
      "train_speed(iter/s)": 0.100744
    },
    {
      "epoch": 1.2529274004683841,
      "grad_norm": 0.2534308433532715,
      "learning_rate": 1.3482815686194033e-05,
      "loss": 0.33311474323272705,
      "memory(GiB)": 127.52,
      "step": 1070,
      "token_acc": 0.8795399856245507,
      "train_speed(iter/s)": 0.100751
    },
    {
      "epoch": 1.2587822014051522,
      "grad_norm": 0.2755572497844696,
      "learning_rate": 1.3422223638896235e-05,
      "loss": 0.3432854413986206,
      "memory(GiB)": 127.52,
      "step": 1075,
      "token_acc": 0.8758250682788096,
      "train_speed(iter/s)": 0.100756
    },
    {
      "epoch": 1.2646370023419204,
      "grad_norm": 0.2861506938934326,
      "learning_rate": 1.3361488944673315e-05,
      "loss": 0.3542114496231079,
      "memory(GiB)": 127.52,
      "step": 1080,
      "token_acc": 0.8687981877806241,
      "train_speed(iter/s)": 0.100759
    },
    {
      "epoch": 1.2704918032786885,
      "grad_norm": 0.3049258589744568,
      "learning_rate": 1.3300614135100736e-05,
      "loss": 0.3503614664077759,
      "memory(GiB)": 127.52,
      "step": 1085,
      "token_acc": 0.875489517451949,
      "train_speed(iter/s)": 0.100754
    },
    {
      "epoch": 1.2763466042154565,
      "grad_norm": 0.25668370723724365,
      "learning_rate": 1.3239601747594319e-05,
      "loss": 0.3487658739089966,
      "memory(GiB)": 127.52,
      "step": 1090,
      "token_acc": 0.8770075135561131,
      "train_speed(iter/s)": 0.100751
    },
    {
      "epoch": 1.2822014051522248,
      "grad_norm": 0.2401314228773117,
      "learning_rate": 1.3178454325304472e-05,
      "loss": 0.3507190465927124,
      "memory(GiB)": 127.52,
      "step": 1095,
      "token_acc": 0.8644839657435769,
      "train_speed(iter/s)": 0.100741
    },
    {
      "epoch": 1.288056206088993,
      "grad_norm": 0.2501038908958435,
      "learning_rate": 1.3117174417010213e-05,
      "loss": 0.3356021404266357,
      "memory(GiB)": 127.52,
      "step": 1100,
      "token_acc": 0.8694938440492476,
      "train_speed(iter/s)": 0.100738
    },
    {
      "epoch": 1.2939110070257611,
      "grad_norm": 0.25629186630249023,
      "learning_rate": 1.3055764577012892e-05,
      "loss": 0.3668931007385254,
      "memory(GiB)": 127.52,
      "step": 1105,
      "token_acc": 0.8810234328372201,
      "train_speed(iter/s)": 0.100745
    },
    {
      "epoch": 1.2997658079625292,
      "grad_norm": 0.2689758539199829,
      "learning_rate": 1.2994227365029752e-05,
      "loss": 0.34679102897644043,
      "memory(GiB)": 127.52,
      "step": 1110,
      "token_acc": 0.8783292769097903,
      "train_speed(iter/s)": 0.100746
    },
    {
      "epoch": 1.3056206088992974,
      "grad_norm": 0.2619406282901764,
      "learning_rate": 1.2932565346087218e-05,
      "loss": 0.35414924621582033,
      "memory(GiB)": 127.52,
      "step": 1115,
      "token_acc": 0.8748901150285233,
      "train_speed(iter/s)": 0.100729
    },
    {
      "epoch": 1.3114754098360657,
      "grad_norm": 0.3210083842277527,
      "learning_rate": 1.2870781090413991e-05,
      "loss": 0.35202646255493164,
      "memory(GiB)": 127.52,
      "step": 1120,
      "token_acc": 0.8757856423662141,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 1.3173302107728337,
      "grad_norm": 0.27284613251686096,
      "learning_rate": 1.2808877173333896e-05,
      "loss": 0.3467656850814819,
      "memory(GiB)": 127.52,
      "step": 1125,
      "token_acc": 0.883265632074048,
      "train_speed(iter/s)": 0.100724
    },
    {
      "epoch": 1.3231850117096018,
      "grad_norm": 0.2710505425930023,
      "learning_rate": 1.2746856175158556e-05,
      "loss": 0.35611112117767335,
      "memory(GiB)": 127.52,
      "step": 1130,
      "token_acc": 0.8756308252586658,
      "train_speed(iter/s)": 0.100737
    },
    {
      "epoch": 1.32903981264637,
      "grad_norm": 0.26133865118026733,
      "learning_rate": 1.2684720681079825e-05,
      "loss": 0.3506006240844727,
      "memory(GiB)": 127.52,
      "step": 1135,
      "token_acc": 0.8604187872166245,
      "train_speed(iter/s)": 0.100742
    },
    {
      "epoch": 1.334894613583138,
      "grad_norm": 0.27019548416137695,
      "learning_rate": 1.2622473281062042e-05,
      "loss": 0.35390684604644773,
      "memory(GiB)": 127.52,
      "step": 1140,
      "token_acc": 0.8757172258949731,
      "train_speed(iter/s)": 0.100736
    },
    {
      "epoch": 1.3407494145199064,
      "grad_norm": 0.26330387592315674,
      "learning_rate": 1.256011656973406e-05,
      "loss": 0.36088995933532714,
      "memory(GiB)": 127.52,
      "step": 1145,
      "token_acc": 0.8777154145240186,
      "train_speed(iter/s)": 0.100733
    },
    {
      "epoch": 1.3466042154566744,
      "grad_norm": 0.24824829399585724,
      "learning_rate": 1.2497653146281113e-05,
      "loss": 0.3501885175704956,
      "memory(GiB)": 127.52,
      "step": 1150,
      "token_acc": 0.8752751123830188,
      "train_speed(iter/s)": 0.100712
    },
    {
      "epoch": 1.3524590163934427,
      "grad_norm": 0.2536720037460327,
      "learning_rate": 1.2435085614336459e-05,
      "loss": 0.3565546989440918,
      "memory(GiB)": 127.52,
      "step": 1155,
      "token_acc": 0.8831354083065811,
      "train_speed(iter/s)": 0.100705
    },
    {
      "epoch": 1.3583138173302107,
      "grad_norm": 0.24884596467018127,
      "learning_rate": 1.2372416581872857e-05,
      "loss": 0.34425859451293944,
      "memory(GiB)": 127.52,
      "step": 1160,
      "token_acc": 0.8804687524440259,
      "train_speed(iter/s)": 0.100705
    },
    {
      "epoch": 1.364168618266979,
      "grad_norm": 0.2567351162433624,
      "learning_rate": 1.2309648661093878e-05,
      "loss": 0.3500640630722046,
      "memory(GiB)": 127.52,
      "step": 1165,
      "token_acc": 0.8808626074837297,
      "train_speed(iter/s)": 0.100708
    },
    {
      "epoch": 1.370023419203747,
      "grad_norm": 0.27127236127853394,
      "learning_rate": 1.2246784468324993e-05,
      "loss": 0.35610170364379884,
      "memory(GiB)": 127.52,
      "step": 1170,
      "token_acc": 0.8642630631304163,
      "train_speed(iter/s)": 0.100707
    },
    {
      "epoch": 1.3758782201405153,
      "grad_norm": 0.25630801916122437,
      "learning_rate": 1.218382662390454e-05,
      "loss": 0.3440692901611328,
      "memory(GiB)": 127.52,
      "step": 1175,
      "token_acc": 0.863847903863763,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 1.3817330210772834,
      "grad_norm": 0.2579875886440277,
      "learning_rate": 1.2120777752074492e-05,
      "loss": 0.35255093574523927,
      "memory(GiB)": 127.52,
      "step": 1180,
      "token_acc": 0.8730105052212985,
      "train_speed(iter/s)": 0.100715
    },
    {
      "epoch": 1.3875878220140514,
      "grad_norm": 0.2638234496116638,
      "learning_rate": 1.2057640480871084e-05,
      "loss": 0.3546736717224121,
      "memory(GiB)": 127.52,
      "step": 1185,
      "token_acc": 0.8738721335992023,
      "train_speed(iter/s)": 0.100725
    },
    {
      "epoch": 1.3934426229508197,
      "grad_norm": 0.25871458649635315,
      "learning_rate": 1.1994417442015243e-05,
      "loss": 0.35408906936645507,
      "memory(GiB)": 127.52,
      "step": 1190,
      "token_acc": 0.8796952149117578,
      "train_speed(iter/s)": 0.100732
    },
    {
      "epoch": 1.399297423887588,
      "grad_norm": 0.2632989287376404,
      "learning_rate": 1.193111127080292e-05,
      "loss": 0.3432591676712036,
      "memory(GiB)": 127.52,
      "step": 1195,
      "token_acc": 0.8828218086199104,
      "train_speed(iter/s)": 0.10074
    },
    {
      "epoch": 1.405152224824356,
      "grad_norm": 0.24726183712482452,
      "learning_rate": 1.186772460599523e-05,
      "loss": 0.34243590831756593,
      "memory(GiB)": 127.52,
      "step": 1200,
      "token_acc": 0.8815012144480138,
      "train_speed(iter/s)": 0.100741
    },
    {
      "epoch": 1.411007025761124,
      "grad_norm": 0.3329097032546997,
      "learning_rate": 1.1804260089708464e-05,
      "loss": 0.3537503480911255,
      "memory(GiB)": 127.52,
      "step": 1205,
      "token_acc": 0.8658939159898351,
      "train_speed(iter/s)": 0.100735
    },
    {
      "epoch": 1.4168618266978923,
      "grad_norm": 0.25181666016578674,
      "learning_rate": 1.1740720367303958e-05,
      "loss": 0.347446870803833,
      "memory(GiB)": 127.52,
      "step": 1210,
      "token_acc": 0.8740943022953225,
      "train_speed(iter/s)": 0.10074
    },
    {
      "epoch": 1.4227166276346606,
      "grad_norm": 0.2532757818698883,
      "learning_rate": 1.1677108087277835e-05,
      "loss": 0.3539264678955078,
      "memory(GiB)": 127.52,
      "step": 1215,
      "token_acc": 0.8749382353125137,
      "train_speed(iter/s)": 0.100743
    },
    {
      "epoch": 1.4285714285714286,
      "grad_norm": 0.2551215887069702,
      "learning_rate": 1.1613425901150595e-05,
      "loss": 0.35313239097595217,
      "memory(GiB)": 127.52,
      "step": 1220,
      "token_acc": 0.8776082867215627,
      "train_speed(iter/s)": 0.100745
    },
    {
      "epoch": 1.4344262295081966,
      "grad_norm": 0.2713333070278168,
      "learning_rate": 1.15496764633566e-05,
      "loss": 0.3634988307952881,
      "memory(GiB)": 127.52,
      "step": 1225,
      "token_acc": 0.8660714848651069,
      "train_speed(iter/s)": 0.10073
    },
    {
      "epoch": 1.440281030444965,
      "grad_norm": 0.26022830605506897,
      "learning_rate": 1.1485862431133445e-05,
      "loss": 0.3524580478668213,
      "memory(GiB)": 127.52,
      "step": 1230,
      "token_acc": 0.8803166548004755,
      "train_speed(iter/s)": 0.100717
    },
    {
      "epoch": 1.446135831381733,
      "grad_norm": 0.25171470642089844,
      "learning_rate": 1.1421986464411169e-05,
      "loss": 0.3533075571060181,
      "memory(GiB)": 127.52,
      "step": 1235,
      "token_acc": 0.8648047662981438,
      "train_speed(iter/s)": 0.100703
    },
    {
      "epoch": 1.4519906323185012,
      "grad_norm": 0.2464302033185959,
      "learning_rate": 1.1358051225701404e-05,
      "loss": 0.3423281192779541,
      "memory(GiB)": 127.52,
      "step": 1240,
      "token_acc": 0.8691011183611862,
      "train_speed(iter/s)": 0.100701
    },
    {
      "epoch": 1.4578454332552693,
      "grad_norm": 0.25466638803482056,
      "learning_rate": 1.1294059379986384e-05,
      "loss": 0.35201549530029297,
      "memory(GiB)": 127.52,
      "step": 1245,
      "token_acc": 0.8681012341038652,
      "train_speed(iter/s)": 0.100689
    },
    {
      "epoch": 1.4637002341920375,
      "grad_norm": 0.2576982080936432,
      "learning_rate": 1.1230013594607874e-05,
      "loss": 0.3531355857849121,
      "memory(GiB)": 127.52,
      "step": 1250,
      "token_acc": 0.873457880243676,
      "train_speed(iter/s)": 0.100693
    },
    {
      "epoch": 1.4695550351288056,
      "grad_norm": 0.25660985708236694,
      "learning_rate": 1.1165916539155968e-05,
      "loss": 0.35094761848449707,
      "memory(GiB)": 127.52,
      "step": 1255,
      "token_acc": 0.8773934266901257,
      "train_speed(iter/s)": 0.100701
    },
    {
      "epoch": 1.4754098360655736,
      "grad_norm": 0.24054618179798126,
      "learning_rate": 1.1101770885357843e-05,
      "loss": 0.34633212089538573,
      "memory(GiB)": 127.52,
      "step": 1260,
      "token_acc": 0.8775079994840057,
      "train_speed(iter/s)": 0.100711
    },
    {
      "epoch": 1.481264637002342,
      "grad_norm": 0.2445182204246521,
      "learning_rate": 1.1037579306966365e-05,
      "loss": 0.34541456699371337,
      "memory(GiB)": 127.52,
      "step": 1265,
      "token_acc": 0.8862320037137543,
      "train_speed(iter/s)": 0.100709
    },
    {
      "epoch": 1.4871194379391102,
      "grad_norm": 0.2729050815105438,
      "learning_rate": 1.0973344479648652e-05,
      "loss": 0.3409654855728149,
      "memory(GiB)": 127.52,
      "step": 1270,
      "token_acc": 0.8771963474914158,
      "train_speed(iter/s)": 0.100709
    },
    {
      "epoch": 1.4929742388758782,
      "grad_norm": 0.24874503910541534,
      "learning_rate": 1.0909069080874556e-05,
      "loss": 0.3430008411407471,
      "memory(GiB)": 127.52,
      "step": 1275,
      "token_acc": 0.8704117168634027,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 1.4988290398126463,
      "grad_norm": 0.2715279459953308,
      "learning_rate": 1.0844755789805042e-05,
      "loss": 0.35068159103393554,
      "memory(GiB)": 127.52,
      "step": 1280,
      "token_acc": 0.8675264981305526,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 1.5046838407494145,
      "grad_norm": 0.23995369672775269,
      "learning_rate": 1.0780407287180526e-05,
      "loss": 0.35523912906646726,
      "memory(GiB)": 127.52,
      "step": 1285,
      "token_acc": 0.8685361997709505,
      "train_speed(iter/s)": 0.100706
    },
    {
      "epoch": 1.5105386416861828,
      "grad_norm": 0.26195716857910156,
      "learning_rate": 1.0716026255209124e-05,
      "loss": 0.349694561958313,
      "memory(GiB)": 127.52,
      "step": 1290,
      "token_acc": 0.8676919971870162,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 1.5163934426229508,
      "grad_norm": 0.24379870295524597,
      "learning_rate": 1.0651615377454872e-05,
      "loss": 0.3513511657714844,
      "memory(GiB)": 127.52,
      "step": 1295,
      "token_acc": 0.8762717457922776,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 1.5222482435597189,
      "grad_norm": 0.2554638683795929,
      "learning_rate": 1.0587177338725834e-05,
      "loss": 0.3569997787475586,
      "memory(GiB)": 127.52,
      "step": 1300,
      "token_acc": 0.8766220533416101,
      "train_speed(iter/s)": 0.100716
    },
    {
      "epoch": 1.5281030444964872,
      "grad_norm": 0.2548043727874756,
      "learning_rate": 1.0522714824962228e-05,
      "loss": 0.3422648191452026,
      "memory(GiB)": 127.52,
      "step": 1305,
      "token_acc": 0.8870603034829783,
      "train_speed(iter/s)": 0.100709
    },
    {
      "epoch": 1.5339578454332554,
      "grad_norm": 0.24967636168003082,
      "learning_rate": 1.0458230523124443e-05,
      "loss": 0.3560429573059082,
      "memory(GiB)": 127.52,
      "step": 1310,
      "token_acc": 0.8787232780765522,
      "train_speed(iter/s)": 0.100701
    },
    {
      "epoch": 1.5398126463700235,
      "grad_norm": 0.2598780691623688,
      "learning_rate": 1.0393727121081057e-05,
      "loss": 0.3518627166748047,
      "memory(GiB)": 127.52,
      "step": 1315,
      "token_acc": 0.8750810752945474,
      "train_speed(iter/s)": 0.10071
    },
    {
      "epoch": 1.5456674473067915,
      "grad_norm": 0.23825575411319733,
      "learning_rate": 1.0329207307496785e-05,
      "loss": 0.3401672840118408,
      "memory(GiB)": 127.52,
      "step": 1320,
      "token_acc": 0.8770460187011242,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 1.5515222482435598,
      "grad_norm": 0.2550235986709595,
      "learning_rate": 1.0264673771720429e-05,
      "loss": 0.350058913230896,
      "memory(GiB)": 127.52,
      "step": 1325,
      "token_acc": 0.881267240867612,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 1.5573770491803278,
      "grad_norm": 0.269613653421402,
      "learning_rate": 1.0200129203672754e-05,
      "loss": 0.3502191543579102,
      "memory(GiB)": 127.52,
      "step": 1330,
      "token_acc": 0.8661129276756743,
      "train_speed(iter/s)": 0.10071
    },
    {
      "epoch": 1.5632318501170959,
      "grad_norm": 0.24150115251541138,
      "learning_rate": 1.0135576293734381e-05,
      "loss": 0.34059958457946776,
      "memory(GiB)": 127.52,
      "step": 1335,
      "token_acc": 0.8847581210563216,
      "train_speed(iter/s)": 0.100716
    },
    {
      "epoch": 1.5690866510538641,
      "grad_norm": 0.2703973650932312,
      "learning_rate": 1.007101773263365e-05,
      "loss": 0.35358033180236814,
      "memory(GiB)": 127.52,
      "step": 1340,
      "token_acc": 0.8770655404348506,
      "train_speed(iter/s)": 0.100721
    },
    {
      "epoch": 1.5749414519906324,
      "grad_norm": 0.23871327936649323,
      "learning_rate": 1.0006456211334445e-05,
      "loss": 0.3467454671859741,
      "memory(GiB)": 127.52,
      "step": 1345,
      "token_acc": 0.8759395313396612,
      "train_speed(iter/s)": 0.100731
    },
    {
      "epoch": 1.5807962529274004,
      "grad_norm": 0.25692564249038696,
      "learning_rate": 9.941894420924044e-06,
      "loss": 0.3450988054275513,
      "memory(GiB)": 127.52,
      "step": 1350,
      "token_acc": 0.8868195745646664,
      "train_speed(iter/s)": 0.100727
    },
    {
      "epoch": 1.5866510538641685,
      "grad_norm": 0.2428205907344818,
      "learning_rate": 9.87733505250094e-06,
      "loss": 0.3494907855987549,
      "memory(GiB)": 127.52,
      "step": 1355,
      "token_acc": 0.8756121235576668,
      "train_speed(iter/s)": 0.100725
    },
    {
      "epoch": 1.5925058548009368,
      "grad_norm": 0.24155238270759583,
      "learning_rate": 9.812780797062678e-06,
      "loss": 0.3456254005432129,
      "memory(GiB)": 127.52,
      "step": 1360,
      "token_acc": 0.8809245943605768,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 1.598360655737705,
      "grad_norm": 0.464139848947525,
      "learning_rate": 9.748234345393672e-06,
      "loss": 0.34203310012817384,
      "memory(GiB)": 127.52,
      "step": 1365,
      "token_acc": 0.8774237555421359,
      "train_speed(iter/s)": 0.100715
    },
    {
      "epoch": 1.604215456674473,
      "grad_norm": 0.2672084867954254,
      "learning_rate": 9.68369838795306e-06,
      "loss": 0.350542688369751,
      "memory(GiB)": 127.52,
      "step": 1370,
      "token_acc": 0.8734205080790737,
      "train_speed(iter/s)": 0.100705
    },
    {
      "epoch": 1.6100702576112411,
      "grad_norm": 0.2600000500679016,
      "learning_rate": 9.61917561476255e-06,
      "loss": 0.3421807050704956,
      "memory(GiB)": 127.52,
      "step": 1375,
      "token_acc": 0.8668853013058622,
      "train_speed(iter/s)": 0.100709
    },
    {
      "epoch": 1.6159250585480094,
      "grad_norm": 0.2540619373321533,
      "learning_rate": 9.554668715294305e-06,
      "loss": 0.3543410778045654,
      "memory(GiB)": 127.52,
      "step": 1380,
      "token_acc": 0.8761743728864414,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 1.6217798594847777,
      "grad_norm": 0.2585217356681824,
      "learning_rate": 9.490180378358826e-06,
      "loss": 0.35744295120239256,
      "memory(GiB)": 127.52,
      "step": 1385,
      "token_acc": 0.8715506016593595,
      "train_speed(iter/s)": 0.100718
    },
    {
      "epoch": 1.6276346604215457,
      "grad_norm": 0.26017606258392334,
      "learning_rate": 9.425713291992878e-06,
      "loss": 0.34558424949645994,
      "memory(GiB)": 127.52,
      "step": 1390,
      "token_acc": 0.8794015410099387,
      "train_speed(iter/s)": 0.100719
    },
    {
      "epoch": 1.6334894613583137,
      "grad_norm": 0.25051021575927734,
      "learning_rate": 9.361270143347452e-06,
      "loss": 0.35907368659973143,
      "memory(GiB)": 127.52,
      "step": 1395,
      "token_acc": 0.8715231746371632,
      "train_speed(iter/s)": 0.100723
    },
    {
      "epoch": 1.639344262295082,
      "grad_norm": 0.24877934157848358,
      "learning_rate": 9.296853618575753e-06,
      "loss": 0.34605088233947756,
      "memory(GiB)": 127.52,
      "step": 1400,
      "token_acc": 0.8828522126980963,
      "train_speed(iter/s)": 0.100731
    },
    {
      "epoch": 1.6451990632318503,
      "grad_norm": 0.23893095552921295,
      "learning_rate": 9.232466402721241e-06,
      "loss": 0.3570685625076294,
      "memory(GiB)": 127.52,
      "step": 1405,
      "token_acc": 0.8760022299616647,
      "train_speed(iter/s)": 0.10074
    },
    {
      "epoch": 1.651053864168618,
      "grad_norm": 0.24638938903808594,
      "learning_rate": 9.1681111796057e-06,
      "loss": 0.3466794967651367,
      "memory(GiB)": 127.52,
      "step": 1410,
      "token_acc": 0.8773031091974165,
      "train_speed(iter/s)": 0.100749
    },
    {
      "epoch": 1.6569086651053864,
      "grad_norm": 0.256526380777359,
      "learning_rate": 9.103790631717375e-06,
      "loss": 0.3623323917388916,
      "memory(GiB)": 127.52,
      "step": 1415,
      "token_acc": 0.8679865616745452,
      "train_speed(iter/s)": 0.100748
    },
    {
      "epoch": 1.6627634660421546,
      "grad_norm": 0.25238198041915894,
      "learning_rate": 9.039507440099164e-06,
      "loss": 0.3467939138412476,
      "memory(GiB)": 127.52,
      "step": 1420,
      "token_acc": 0.8828419526341228,
      "train_speed(iter/s)": 0.100746
    },
    {
      "epoch": 1.6686182669789227,
      "grad_norm": 0.23841890692710876,
      "learning_rate": 8.975264284236866e-06,
      "loss": 0.34966843128204345,
      "memory(GiB)": 127.52,
      "step": 1425,
      "token_acc": 0.8775815971188294,
      "train_speed(iter/s)": 0.100755
    },
    {
      "epoch": 1.6744730679156907,
      "grad_norm": 0.26001548767089844,
      "learning_rate": 8.911063841947476e-06,
      "loss": 0.35109724998474123,
      "memory(GiB)": 127.52,
      "step": 1430,
      "token_acc": 0.8745225380796411,
      "train_speed(iter/s)": 0.100754
    },
    {
      "epoch": 1.680327868852459,
      "grad_norm": 0.2468952238559723,
      "learning_rate": 8.846908789267589e-06,
      "loss": 0.35158143043518064,
      "memory(GiB)": 127.52,
      "step": 1435,
      "token_acc": 0.8772585276576946,
      "train_speed(iter/s)": 0.100766
    },
    {
      "epoch": 1.6861826697892273,
      "grad_norm": 0.24095061421394348,
      "learning_rate": 8.78280180034184e-06,
      "loss": 0.3411277770996094,
      "memory(GiB)": 127.52,
      "step": 1440,
      "token_acc": 0.8712463039204312,
      "train_speed(iter/s)": 0.10077
    },
    {
      "epoch": 1.6920374707259953,
      "grad_norm": 0.25439053773880005,
      "learning_rate": 8.718745547311458e-06,
      "loss": 0.3543074131011963,
      "memory(GiB)": 127.52,
      "step": 1445,
      "token_acc": 0.871980767417743,
      "train_speed(iter/s)": 0.100763
    },
    {
      "epoch": 1.6978922716627634,
      "grad_norm": 1.5297069549560547,
      "learning_rate": 8.654742700202849e-06,
      "loss": 0.3533529043197632,
      "memory(GiB)": 127.52,
      "step": 1450,
      "token_acc": 0.8742467882207196,
      "train_speed(iter/s)": 0.100766
    },
    {
      "epoch": 1.7037470725995316,
      "grad_norm": 0.25103631615638733,
      "learning_rate": 8.590795926816348e-06,
      "loss": 0.3418538570404053,
      "memory(GiB)": 127.52,
      "step": 1455,
      "token_acc": 0.8745452901882429,
      "train_speed(iter/s)": 0.100768
    },
    {
      "epoch": 1.7096018735362999,
      "grad_norm": 0.3538268208503723,
      "learning_rate": 8.526907892614986e-06,
      "loss": 0.34701027870178225,
      "memory(GiB)": 127.52,
      "step": 1460,
      "token_acc": 0.8781468525993731,
      "train_speed(iter/s)": 0.100762
    },
    {
      "epoch": 1.715456674473068,
      "grad_norm": 0.2575690448284149,
      "learning_rate": 8.463081260613391e-06,
      "loss": 0.3492567539215088,
      "memory(GiB)": 127.52,
      "step": 1465,
      "token_acc": 0.8833869870635476,
      "train_speed(iter/s)": 0.10076
    },
    {
      "epoch": 1.721311475409836,
      "grad_norm": 0.25249573588371277,
      "learning_rate": 8.399318691266806e-06,
      "loss": 0.35265603065490725,
      "memory(GiB)": 127.52,
      "step": 1470,
      "token_acc": 0.8733317460118548,
      "train_speed(iter/s)": 0.10076
    },
    {
      "epoch": 1.7271662763466042,
      "grad_norm": 0.26620882749557495,
      "learning_rate": 8.335622842360168e-06,
      "loss": 0.3444960594177246,
      "memory(GiB)": 127.52,
      "step": 1475,
      "token_acc": 0.8786412367096045,
      "train_speed(iter/s)": 0.100754
    },
    {
      "epoch": 1.7330210772833725,
      "grad_norm": 0.25925421714782715,
      "learning_rate": 8.271996368897345e-06,
      "loss": 0.35317885875701904,
      "memory(GiB)": 127.52,
      "step": 1480,
      "token_acc": 0.8806173955625871,
      "train_speed(iter/s)": 0.10074
    },
    {
      "epoch": 1.7388758782201406,
      "grad_norm": 0.24599948525428772,
      "learning_rate": 8.208441922990454e-06,
      "loss": 0.34299373626708984,
      "memory(GiB)": 127.52,
      "step": 1485,
      "token_acc": 0.8748146671484283,
      "train_speed(iter/s)": 0.100736
    },
    {
      "epoch": 1.7447306791569086,
      "grad_norm": 0.2374086081981659,
      "learning_rate": 8.144962153749331e-06,
      "loss": 0.3454796314239502,
      "memory(GiB)": 127.52,
      "step": 1490,
      "token_acc": 0.8697578355578018,
      "train_speed(iter/s)": 0.100735
    },
    {
      "epoch": 1.7505854800936769,
      "grad_norm": 0.2567986845970154,
      "learning_rate": 8.081559707171094e-06,
      "loss": 0.35629470348358155,
      "memory(GiB)": 127.52,
      "step": 1495,
      "token_acc": 0.8722708482627621,
      "train_speed(iter/s)": 0.100742
    },
    {
      "epoch": 1.756440281030445,
      "grad_norm": 0.2612420320510864,
      "learning_rate": 8.01823722602986e-06,
      "loss": 0.34243695735931395,
      "memory(GiB)": 127.52,
      "step": 1500,
      "token_acc": 0.8835913661147516,
      "train_speed(iter/s)": 0.100749
    },
    {
      "epoch": 1.762295081967213,
      "grad_norm": 0.25001969933509827,
      "learning_rate": 7.954997349766576e-06,
      "loss": 0.3504654407501221,
      "memory(GiB)": 127.52,
      "step": 1505,
      "token_acc": 0.8767294491512118,
      "train_speed(iter/s)": 0.100752
    },
    {
      "epoch": 1.7681498829039812,
      "grad_norm": 0.24179641902446747,
      "learning_rate": 7.891842714379027e-06,
      "loss": 0.3378228425979614,
      "memory(GiB)": 127.52,
      "step": 1510,
      "token_acc": 0.8821447808495446,
      "train_speed(iter/s)": 0.10075
    },
    {
      "epoch": 1.7740046838407495,
      "grad_norm": 0.2632296085357666,
      "learning_rate": 7.828775952311921e-06,
      "loss": 0.34106738567352296,
      "memory(GiB)": 127.52,
      "step": 1515,
      "token_acc": 0.872465283102722,
      "train_speed(iter/s)": 0.100743
    },
    {
      "epoch": 1.7798594847775175,
      "grad_norm": 0.2476883977651596,
      "learning_rate": 7.765799692347201e-06,
      "loss": 0.34442992210388185,
      "memory(GiB)": 127.52,
      "step": 1520,
      "token_acc": 0.8729373501693029,
      "train_speed(iter/s)": 0.100743
    },
    {
      "epoch": 1.7857142857142856,
      "grad_norm": 0.2630121111869812,
      "learning_rate": 7.702916559494444e-06,
      "loss": 0.3511634588241577,
      "memory(GiB)": 127.52,
      "step": 1525,
      "token_acc": 0.8770366431554089,
      "train_speed(iter/s)": 0.100748
    },
    {
      "epoch": 1.7915690866510539,
      "grad_norm": 0.24981631338596344,
      "learning_rate": 7.64012917488146e-06,
      "loss": 0.33224847316741946,
      "memory(GiB)": 127.52,
      "step": 1530,
      "token_acc": 0.8896432981333869,
      "train_speed(iter/s)": 0.100745
    },
    {
      "epoch": 1.7974238875878221,
      "grad_norm": 0.25589603185653687,
      "learning_rate": 7.577440155645028e-06,
      "loss": 0.3430049896240234,
      "memory(GiB)": 127.52,
      "step": 1535,
      "token_acc": 0.8784328165618647,
      "train_speed(iter/s)": 0.100733
    },
    {
      "epoch": 1.8032786885245902,
      "grad_norm": 0.24135656654834747,
      "learning_rate": 7.514852114821811e-06,
      "loss": 0.35404491424560547,
      "memory(GiB)": 127.52,
      "step": 1540,
      "token_acc": 0.8758359005184462,
      "train_speed(iter/s)": 0.100732
    },
    {
      "epoch": 1.8091334894613582,
      "grad_norm": 0.3086133599281311,
      "learning_rate": 7.452367661239433e-06,
      "loss": 0.3292539596557617,
      "memory(GiB)": 127.52,
      "step": 1545,
      "token_acc": 0.8771563599039064,
      "train_speed(iter/s)": 0.10073
    },
    {
      "epoch": 1.8149882903981265,
      "grad_norm": 0.26186585426330566,
      "learning_rate": 7.389989399407741e-06,
      "loss": 0.3564730644226074,
      "memory(GiB)": 127.52,
      "step": 1550,
      "token_acc": 0.8767442953125245,
      "train_speed(iter/s)": 0.100726
    },
    {
      "epoch": 1.8208430913348947,
      "grad_norm": 0.2449086308479309,
      "learning_rate": 7.3277199294102485e-06,
      "loss": 0.3377220630645752,
      "memory(GiB)": 127.52,
      "step": 1555,
      "token_acc": 0.8731188520277088,
      "train_speed(iter/s)": 0.100729
    },
    {
      "epoch": 1.8266978922716628,
      "grad_norm": 0.2617018222808838,
      "learning_rate": 7.265561846795741e-06,
      "loss": 0.35269980430603026,
      "memory(GiB)": 127.52,
      "step": 1560,
      "token_acc": 0.8755254872982656,
      "train_speed(iter/s)": 0.100718
    },
    {
      "epoch": 1.8325526932084308,
      "grad_norm": 0.2533339262008667,
      "learning_rate": 7.203517742470101e-06,
      "loss": 0.3477527856826782,
      "memory(GiB)": 127.52,
      "step": 1565,
      "token_acc": 0.8841913617578873,
      "train_speed(iter/s)": 0.100718
    },
    {
      "epoch": 1.838407494145199,
      "grad_norm": 0.24031810462474823,
      "learning_rate": 7.141590202588312e-06,
      "loss": 0.35293850898742674,
      "memory(GiB)": 127.52,
      "step": 1570,
      "token_acc": 0.8790135675181339,
      "train_speed(iter/s)": 0.100724
    },
    {
      "epoch": 1.8442622950819674,
      "grad_norm": 0.2540515661239624,
      "learning_rate": 7.079781808446648e-06,
      "loss": 0.35478663444519043,
      "memory(GiB)": 127.52,
      "step": 1575,
      "token_acc": 0.8638225043564849,
      "train_speed(iter/s)": 0.100721
    },
    {
      "epoch": 1.8501170960187352,
      "grad_norm": 0.24163876473903656,
      "learning_rate": 7.018095136375089e-06,
      "loss": 0.33953070640563965,
      "memory(GiB)": 127.52,
      "step": 1580,
      "token_acc": 0.8760248415939393,
      "train_speed(iter/s)": 0.100721
    },
    {
      "epoch": 1.8559718969555035,
      "grad_norm": 0.24985362589359283,
      "learning_rate": 6.956532757629945e-06,
      "loss": 0.34739911556243896,
      "memory(GiB)": 127.52,
      "step": 1585,
      "token_acc": 0.8751094324520373,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 1.8618266978922717,
      "grad_norm": 0.24738718569278717,
      "learning_rate": 6.89509723828665e-06,
      "loss": 0.35140252113342285,
      "memory(GiB)": 127.52,
      "step": 1590,
      "token_acc": 0.8747874666018945,
      "train_speed(iter/s)": 0.100721
    },
    {
      "epoch": 1.8676814988290398,
      "grad_norm": 0.2528833746910095,
      "learning_rate": 6.833791139132824e-06,
      "loss": 0.3366274356842041,
      "memory(GiB)": 127.52,
      "step": 1595,
      "token_acc": 0.877359708131215,
      "train_speed(iter/s)": 0.100705
    },
    {
      "epoch": 1.8735362997658078,
      "grad_norm": 0.22930973768234253,
      "learning_rate": 6.772617015561529e-06,
      "loss": 0.34548795223236084,
      "memory(GiB)": 127.52,
      "step": 1600,
      "token_acc": 0.8674766998186026,
      "train_speed(iter/s)": 0.100705
    },
    {
      "epoch": 1.879391100702576,
      "grad_norm": 0.23658259212970734,
      "learning_rate": 6.7115774174647475e-06,
      "loss": 0.3390948295593262,
      "memory(GiB)": 127.52,
      "step": 1605,
      "token_acc": 0.883574050014699,
      "train_speed(iter/s)": 0.100706
    },
    {
      "epoch": 1.8852459016393444,
      "grad_norm": 0.25393053889274597,
      "learning_rate": 6.6506748891271045e-06,
      "loss": 0.3500185012817383,
      "memory(GiB)": 127.52,
      "step": 1610,
      "token_acc": 0.8819961495087196,
      "train_speed(iter/s)": 0.100708
    },
    {
      "epoch": 1.8911007025761124,
      "grad_norm": 0.23870056867599487,
      "learning_rate": 6.5899119691198025e-06,
      "loss": 0.343201732635498,
      "memory(GiB)": 127.52,
      "step": 1615,
      "token_acc": 0.8769540112004077,
      "train_speed(iter/s)": 0.100712
    },
    {
      "epoch": 1.8969555035128804,
      "grad_norm": 0.23795676231384277,
      "learning_rate": 6.529291190194829e-06,
      "loss": 0.3476824998855591,
      "memory(GiB)": 127.52,
      "step": 1620,
      "token_acc": 0.8771016372387611,
      "train_speed(iter/s)": 0.100717
    },
    {
      "epoch": 1.9028103044496487,
      "grad_norm": 0.23620595037937164,
      "learning_rate": 6.468815079179364e-06,
      "loss": 0.3438570022583008,
      "memory(GiB)": 127.52,
      "step": 1625,
      "token_acc": 0.8808678958099098,
      "train_speed(iter/s)": 0.100717
    },
    {
      "epoch": 1.908665105386417,
      "grad_norm": 0.27084144949913025,
      "learning_rate": 6.408486156870466e-06,
      "loss": 0.3575857162475586,
      "memory(GiB)": 127.52,
      "step": 1630,
      "token_acc": 0.8567800504203767,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 1.914519906323185,
      "grad_norm": 0.24774354696273804,
      "learning_rate": 6.348306937929991e-06,
      "loss": 0.3539011001586914,
      "memory(GiB)": 127.52,
      "step": 1635,
      "token_acc": 0.8722537158121981,
      "train_speed(iter/s)": 0.100726
    },
    {
      "epoch": 1.920374707259953,
      "grad_norm": 0.23919358849525452,
      "learning_rate": 6.288279930779789e-06,
      "loss": 0.33454456329345705,
      "memory(GiB)": 127.52,
      "step": 1640,
      "token_acc": 0.8859452149573859,
      "train_speed(iter/s)": 0.100729
    },
    {
      "epoch": 1.9262295081967213,
      "grad_norm": 0.2600441575050354,
      "learning_rate": 6.228407637497131e-06,
      "loss": 0.34556894302368163,
      "memory(GiB)": 127.52,
      "step": 1645,
      "token_acc": 0.8641004272904045,
      "train_speed(iter/s)": 0.100727
    },
    {
      "epoch": 1.9320843091334896,
      "grad_norm": 0.2533404231071472,
      "learning_rate": 6.1686925537104306e-06,
      "loss": 0.3354111433029175,
      "memory(GiB)": 127.52,
      "step": 1650,
      "token_acc": 0.8690573840794189,
      "train_speed(iter/s)": 0.100726
    },
    {
      "epoch": 1.9379391100702577,
      "grad_norm": 0.24305778741836548,
      "learning_rate": 6.109137168495205e-06,
      "loss": 0.342392110824585,
      "memory(GiB)": 127.52,
      "step": 1655,
      "token_acc": 0.8907634917938944,
      "train_speed(iter/s)": 0.100732
    },
    {
      "epoch": 1.9437939110070257,
      "grad_norm": 0.23065665364265442,
      "learning_rate": 6.049743964270336e-06,
      "loss": 0.35349397659301757,
      "memory(GiB)": 127.52,
      "step": 1660,
      "token_acc": 0.8749648996911172,
      "train_speed(iter/s)": 0.100731
    },
    {
      "epoch": 1.949648711943794,
      "grad_norm": 0.26187312602996826,
      "learning_rate": 5.990515416694591e-06,
      "loss": 0.3514526844024658,
      "memory(GiB)": 127.52,
      "step": 1665,
      "token_acc": 0.8773919272455463,
      "train_speed(iter/s)": 0.100729
    },
    {
      "epoch": 1.955503512880562,
      "grad_norm": 0.2436314970254898,
      "learning_rate": 5.931453994563434e-06,
      "loss": 0.34615340232849123,
      "memory(GiB)": 127.52,
      "step": 1670,
      "token_acc": 0.8825784399814935,
      "train_speed(iter/s)": 0.100722
    },
    {
      "epoch": 1.96135831381733,
      "grad_norm": 1.0637788772583008,
      "learning_rate": 5.872562159706116e-06,
      "loss": 0.34925112724304197,
      "memory(GiB)": 127.52,
      "step": 1675,
      "token_acc": 0.8725762818496382,
      "train_speed(iter/s)": 0.100718
    },
    {
      "epoch": 1.9672131147540983,
      "grad_norm": 0.2608899176120758,
      "learning_rate": 5.8138423668830605e-06,
      "loss": 0.34130330085754396,
      "memory(GiB)": 127.52,
      "step": 1680,
      "token_acc": 0.876563876375788,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 1.9730679156908666,
      "grad_norm": 0.24455122649669647,
      "learning_rate": 5.755297063683551e-06,
      "loss": 0.3456611633300781,
      "memory(GiB)": 127.52,
      "step": 1685,
      "token_acc": 0.8803155448934612,
      "train_speed(iter/s)": 0.100717
    },
    {
      "epoch": 1.9789227166276346,
      "grad_norm": 0.23744545876979828,
      "learning_rate": 5.696928690423693e-06,
      "loss": 0.3404732942581177,
      "memory(GiB)": 127.52,
      "step": 1690,
      "token_acc": 0.873919857146425,
      "train_speed(iter/s)": 0.100721
    },
    {
      "epoch": 1.9847775175644027,
      "grad_norm": 0.2499692440032959,
      "learning_rate": 5.638739680044718e-06,
      "loss": 0.3554127931594849,
      "memory(GiB)": 127.52,
      "step": 1695,
      "token_acc": 0.8678405344492528,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 1.990632318501171,
      "grad_norm": 0.23933644592761993,
      "learning_rate": 5.580732458011544e-06,
      "loss": 0.34451732635498045,
      "memory(GiB)": 127.52,
      "step": 1700,
      "token_acc": 0.8813060735041081,
      "train_speed(iter/s)": 0.100721
    },
    {
      "epoch": 1.9964871194379392,
      "grad_norm": 0.2454347014427185,
      "learning_rate": 5.522909442211708e-06,
      "loss": 0.3448106527328491,
      "memory(GiB)": 127.52,
      "step": 1705,
      "token_acc": 0.8718723798596708,
      "train_speed(iter/s)": 0.100717
    },
    {
      "epoch": 2.002341920374707,
      "grad_norm": 0.30603164434432983,
      "learning_rate": 5.465273042854551e-06,
      "loss": 0.3320322036743164,
      "memory(GiB)": 127.52,
      "step": 1710,
      "token_acc": 0.8845191075650899,
      "train_speed(iter/s)": 0.10054
    },
    {
      "epoch": 2.0081967213114753,
      "grad_norm": 0.26624929904937744,
      "learning_rate": 5.407825662370778e-06,
      "loss": 0.3192149639129639,
      "memory(GiB)": 127.52,
      "step": 1715,
      "token_acc": 0.8862581577460744,
      "train_speed(iter/s)": 0.100533
    },
    {
      "epoch": 2.0140515222482436,
      "grad_norm": 0.28559088706970215,
      "learning_rate": 5.350569695312313e-06,
      "loss": 0.3315494775772095,
      "memory(GiB)": 127.52,
      "step": 1720,
      "token_acc": 0.8817901407312053,
      "train_speed(iter/s)": 0.100527
    },
    {
      "epoch": 2.019906323185012,
      "grad_norm": 0.24132603406906128,
      "learning_rate": 5.293507528252474e-06,
      "loss": 0.3354511737823486,
      "memory(GiB)": 127.52,
      "step": 1725,
      "token_acc": 0.8808201997328972,
      "train_speed(iter/s)": 0.100523
    },
    {
      "epoch": 2.0257611241217797,
      "grad_norm": 0.25403663516044617,
      "learning_rate": 5.236641539686518e-06,
      "loss": 0.3226620197296143,
      "memory(GiB)": 127.52,
      "step": 1730,
      "token_acc": 0.8806968959125817,
      "train_speed(iter/s)": 0.10053
    },
    {
      "epoch": 2.031615925058548,
      "grad_norm": 0.24015206098556519,
      "learning_rate": 5.179974099932472e-06,
      "loss": 0.3161166667938232,
      "memory(GiB)": 127.52,
      "step": 1735,
      "token_acc": 0.8794680331257753,
      "train_speed(iter/s)": 0.100526
    },
    {
      "epoch": 2.037470725995316,
      "grad_norm": 0.2842601537704468,
      "learning_rate": 5.12350757103236e-06,
      "loss": 0.31528186798095703,
      "memory(GiB)": 127.52,
      "step": 1740,
      "token_acc": 0.8833886035950154,
      "train_speed(iter/s)": 0.10053
    },
    {
      "epoch": 2.0433255269320845,
      "grad_norm": 0.23931631445884705,
      "learning_rate": 5.067244306653736e-06,
      "loss": 0.32300970554351804,
      "memory(GiB)": 127.52,
      "step": 1745,
      "token_acc": 0.8907401132070736,
      "train_speed(iter/s)": 0.100533
    },
    {
      "epoch": 2.0491803278688523,
      "grad_norm": 0.25491324067115784,
      "learning_rate": 5.0111866519915575e-06,
      "loss": 0.31856546401977537,
      "memory(GiB)": 127.52,
      "step": 1750,
      "token_acc": 0.8788062223735568,
      "train_speed(iter/s)": 0.100534
    },
    {
      "epoch": 2.0550351288056206,
      "grad_norm": 0.2541966140270233,
      "learning_rate": 4.95533694367047e-06,
      "loss": 0.31543042659759524,
      "memory(GiB)": 127.52,
      "step": 1755,
      "token_acc": 0.8854616459729288,
      "train_speed(iter/s)": 0.100541
    },
    {
      "epoch": 2.060889929742389,
      "grad_norm": 0.250337690114975,
      "learning_rate": 4.899697509647379e-06,
      "loss": 0.32208833694458006,
      "memory(GiB)": 127.52,
      "step": 1760,
      "token_acc": 0.8763743304143462,
      "train_speed(iter/s)": 0.100545
    },
    {
      "epoch": 2.066744730679157,
      "grad_norm": 0.23674513399600983,
      "learning_rate": 4.844270669114424e-06,
      "loss": 0.32359483242034914,
      "memory(GiB)": 127.52,
      "step": 1765,
      "token_acc": 0.8885440198244088,
      "train_speed(iter/s)": 0.100551
    },
    {
      "epoch": 2.072599531615925,
      "grad_norm": 0.2509515881538391,
      "learning_rate": 4.789058732402319e-06,
      "loss": 0.3145972728729248,
      "memory(GiB)": 127.52,
      "step": 1770,
      "token_acc": 0.8812067213755373,
      "train_speed(iter/s)": 0.100554
    },
    {
      "epoch": 2.078454332552693,
      "grad_norm": 0.27846959233283997,
      "learning_rate": 4.734064000884044e-06,
      "loss": 0.3361539840698242,
      "memory(GiB)": 127.52,
      "step": 1775,
      "token_acc": 0.8687031468980935,
      "train_speed(iter/s)": 0.100561
    },
    {
      "epoch": 2.0843091334894615,
      "grad_norm": 0.2520703971385956,
      "learning_rate": 4.679288766878908e-06,
      "loss": 0.3277717590332031,
      "memory(GiB)": 127.52,
      "step": 1780,
      "token_acc": 0.8835239754091976,
      "train_speed(iter/s)": 0.100561
    },
    {
      "epoch": 2.0901639344262297,
      "grad_norm": 0.26310279965400696,
      "learning_rate": 4.624735313557019e-06,
      "loss": 0.32394185066223147,
      "memory(GiB)": 127.52,
      "step": 1785,
      "token_acc": 0.8875730035291546,
      "train_speed(iter/s)": 0.100566
    },
    {
      "epoch": 2.0960187353629975,
      "grad_norm": 0.2666696310043335,
      "learning_rate": 4.570405914844105e-06,
      "loss": 0.31819107532501223,
      "memory(GiB)": 127.52,
      "step": 1790,
      "token_acc": 0.8859368071299645,
      "train_speed(iter/s)": 0.100562
    },
    {
      "epoch": 2.101873536299766,
      "grad_norm": 0.25196680426597595,
      "learning_rate": 4.516302835326723e-06,
      "loss": 0.322560453414917,
      "memory(GiB)": 127.52,
      "step": 1795,
      "token_acc": 0.8921213689835521,
      "train_speed(iter/s)": 0.100564
    },
    {
      "epoch": 2.107728337236534,
      "grad_norm": 0.24787664413452148,
      "learning_rate": 4.462428330157886e-06,
      "loss": 0.3134110927581787,
      "memory(GiB)": 127.52,
      "step": 1800,
      "token_acc": 0.8915973959679097,
      "train_speed(iter/s)": 0.100565
    },
    {
      "epoch": 2.113583138173302,
      "grad_norm": 0.23812943696975708,
      "learning_rate": 4.4087846449630475e-06,
      "loss": 0.31724915504455564,
      "memory(GiB)": 127.52,
      "step": 1805,
      "token_acc": 0.8883239519028294,
      "train_speed(iter/s)": 0.100568
    },
    {
      "epoch": 2.11943793911007,
      "grad_norm": 0.2460552453994751,
      "learning_rate": 4.355374015746493e-06,
      "loss": 0.31520168781280516,
      "memory(GiB)": 127.52,
      "step": 1810,
      "token_acc": 0.8825987185966718,
      "train_speed(iter/s)": 0.100568
    },
    {
      "epoch": 2.1252927400468384,
      "grad_norm": 0.2627100646495819,
      "learning_rate": 4.302198668798159e-06,
      "loss": 0.3187079906463623,
      "memory(GiB)": 127.52,
      "step": 1815,
      "token_acc": 0.8795669142641319,
      "train_speed(iter/s)": 0.100574
    },
    {
      "epoch": 2.1311475409836067,
      "grad_norm": 0.23737181723117828,
      "learning_rate": 4.249260820600813e-06,
      "loss": 0.30634393692016604,
      "memory(GiB)": 127.52,
      "step": 1820,
      "token_acc": 0.8882761935077175,
      "train_speed(iter/s)": 0.100574
    },
    {
      "epoch": 2.1370023419203745,
      "grad_norm": 0.44100987911224365,
      "learning_rate": 4.1965626777376766e-06,
      "loss": 0.3143752574920654,
      "memory(GiB)": 127.52,
      "step": 1825,
      "token_acc": 0.8907455736843094,
      "train_speed(iter/s)": 0.100576
    },
    {
      "epoch": 2.142857142857143,
      "grad_norm": 0.243091881275177,
      "learning_rate": 4.144106436800453e-06,
      "loss": 0.32144436836242674,
      "memory(GiB)": 127.52,
      "step": 1830,
      "token_acc": 0.8904153173473116,
      "train_speed(iter/s)": 0.100586
    },
    {
      "epoch": 2.148711943793911,
      "grad_norm": 0.22646024823188782,
      "learning_rate": 4.091894284297758e-06,
      "loss": 0.3123732089996338,
      "memory(GiB)": 127.52,
      "step": 1835,
      "token_acc": 0.8785402692433979,
      "train_speed(iter/s)": 0.100589
    },
    {
      "epoch": 2.1545667447306793,
      "grad_norm": 0.2700958549976349,
      "learning_rate": 4.039928396563983e-06,
      "loss": 0.33238074779510496,
      "memory(GiB)": 127.52,
      "step": 1840,
      "token_acc": 0.8842443529070076,
      "train_speed(iter/s)": 0.10059
    },
    {
      "epoch": 2.160421545667447,
      "grad_norm": 0.2499818056821823,
      "learning_rate": 3.9882109396685845e-06,
      "loss": 0.30622167587280275,
      "memory(GiB)": 127.52,
      "step": 1845,
      "token_acc": 0.8795685480484824,
      "train_speed(iter/s)": 0.100591
    },
    {
      "epoch": 2.1662763466042154,
      "grad_norm": 0.22730578482151031,
      "learning_rate": 3.936744069325797e-06,
      "loss": 0.3057937860488892,
      "memory(GiB)": 127.52,
      "step": 1850,
      "token_acc": 0.8902019848511362,
      "train_speed(iter/s)": 0.100589
    },
    {
      "epoch": 2.1721311475409837,
      "grad_norm": 0.23967498540878296,
      "learning_rate": 3.885529930804768e-06,
      "loss": 0.3023227214813232,
      "memory(GiB)": 127.52,
      "step": 1855,
      "token_acc": 0.8807274179657759,
      "train_speed(iter/s)": 0.100589
    },
    {
      "epoch": 2.177985948477752,
      "grad_norm": 0.2622321844100952,
      "learning_rate": 3.834570658840152e-06,
      "loss": 0.32261273860931394,
      "memory(GiB)": 127.52,
      "step": 1860,
      "token_acc": 0.8792452360659205,
      "train_speed(iter/s)": 0.100591
    },
    {
      "epoch": 2.1838407494145198,
      "grad_norm": 0.23954476416110992,
      "learning_rate": 3.7838683775431106e-06,
      "loss": 0.31424174308776853,
      "memory(GiB)": 127.52,
      "step": 1865,
      "token_acc": 0.8843662495044312,
      "train_speed(iter/s)": 0.100597
    },
    {
      "epoch": 2.189695550351288,
      "grad_norm": 0.23363274335861206,
      "learning_rate": 3.733425200312797e-06,
      "loss": 0.316208815574646,
      "memory(GiB)": 127.52,
      "step": 1870,
      "token_acc": 0.876293130342547,
      "train_speed(iter/s)": 0.100602
    },
    {
      "epoch": 2.1955503512880563,
      "grad_norm": 0.24841627478599548,
      "learning_rate": 3.683243229748249e-06,
      "loss": 0.3097521781921387,
      "memory(GiB)": 127.52,
      "step": 1875,
      "token_acc": 0.8804246009543149,
      "train_speed(iter/s)": 0.100606
    },
    {
      "epoch": 2.201405152224824,
      "grad_norm": 0.25356635451316833,
      "learning_rate": 3.633324557560747e-06,
      "loss": 0.31675851345062256,
      "memory(GiB)": 127.52,
      "step": 1880,
      "token_acc": 0.8871838137645497,
      "train_speed(iter/s)": 0.10061
    },
    {
      "epoch": 2.2072599531615924,
      "grad_norm": 0.2366763949394226,
      "learning_rate": 3.5836712644866277e-06,
      "loss": 0.30890917778015137,
      "memory(GiB)": 127.52,
      "step": 1885,
      "token_acc": 0.8819356314491541,
      "train_speed(iter/s)": 0.100613
    },
    {
      "epoch": 2.2131147540983607,
      "grad_norm": 0.24897019565105438,
      "learning_rate": 3.5342854202005696e-06,
      "loss": 0.31049222946166993,
      "memory(GiB)": 127.52,
      "step": 1890,
      "token_acc": 0.8878919948532936,
      "train_speed(iter/s)": 0.100619
    },
    {
      "epoch": 2.218969555035129,
      "grad_norm": 0.239404559135437,
      "learning_rate": 3.485169083229293e-06,
      "loss": 0.31925191879272463,
      "memory(GiB)": 127.52,
      "step": 1895,
      "token_acc": 0.8928798404593369,
      "train_speed(iter/s)": 0.100627
    },
    {
      "epoch": 2.2248243559718968,
      "grad_norm": 0.2341826856136322,
      "learning_rate": 3.4363243008657842e-06,
      "loss": 0.31410508155822753,
      "memory(GiB)": 127.52,
      "step": 1900,
      "token_acc": 0.8741590609526956,
      "train_speed(iter/s)": 0.100624
    },
    {
      "epoch": 2.230679156908665,
      "grad_norm": 0.24927052855491638,
      "learning_rate": 3.3877531090839478e-06,
      "loss": 0.3199175834655762,
      "memory(GiB)": 127.52,
      "step": 1905,
      "token_acc": 0.8767657620459692,
      "train_speed(iter/s)": 0.100628
    },
    {
      "epoch": 2.2365339578454333,
      "grad_norm": 0.2401537299156189,
      "learning_rate": 3.3394575324537327e-06,
      "loss": 0.3235038757324219,
      "memory(GiB)": 127.52,
      "step": 1910,
      "token_acc": 0.8763058505839384,
      "train_speed(iter/s)": 0.100623
    },
    {
      "epoch": 2.2423887587822016,
      "grad_norm": 0.23076413571834564,
      "learning_rate": 3.2914395840567605e-06,
      "loss": 0.31050064563751223,
      "memory(GiB)": 127.52,
      "step": 1915,
      "token_acc": 0.8874926079243052,
      "train_speed(iter/s)": 0.100622
    },
    {
      "epoch": 2.2482435597189694,
      "grad_norm": 0.2379971295595169,
      "learning_rate": 3.2437012654024057e-06,
      "loss": 0.3159012317657471,
      "memory(GiB)": 127.52,
      "step": 1920,
      "token_acc": 0.8895969009656411,
      "train_speed(iter/s)": 0.100622
    },
    {
      "epoch": 2.2540983606557377,
      "grad_norm": 0.23007337749004364,
      "learning_rate": 3.1962445663443643e-06,
      "loss": 0.31895716190338136,
      "memory(GiB)": 127.52,
      "step": 1925,
      "token_acc": 0.8823520222942871,
      "train_speed(iter/s)": 0.100616
    },
    {
      "epoch": 2.259953161592506,
      "grad_norm": 0.2437550276517868,
      "learning_rate": 3.1490714649977196e-06,
      "loss": 0.3226035118103027,
      "memory(GiB)": 127.52,
      "step": 1930,
      "token_acc": 0.8907227393284292,
      "train_speed(iter/s)": 0.100614
    },
    {
      "epoch": 2.265807962529274,
      "grad_norm": 0.2513379454612732,
      "learning_rate": 3.102183927656488e-06,
      "loss": 0.31055560111999514,
      "memory(GiB)": 127.52,
      "step": 1935,
      "token_acc": 0.8758090614886731,
      "train_speed(iter/s)": 0.100617
    },
    {
      "epoch": 2.271662763466042,
      "grad_norm": 0.23778940737247467,
      "learning_rate": 3.0555839087116547e-06,
      "loss": 0.32387375831604004,
      "memory(GiB)": 127.52,
      "step": 1940,
      "token_acc": 0.887034375,
      "train_speed(iter/s)": 0.10062
    },
    {
      "epoch": 2.2775175644028103,
      "grad_norm": 0.26385143399238586,
      "learning_rate": 3.009273350569705e-06,
      "loss": 0.32143163681030273,
      "memory(GiB)": 127.52,
      "step": 1945,
      "token_acc": 0.8916146423189599,
      "train_speed(iter/s)": 0.100632
    },
    {
      "epoch": 2.2833723653395785,
      "grad_norm": 0.23078720271587372,
      "learning_rate": 2.963254183571682e-06,
      "loss": 0.31597721576690674,
      "memory(GiB)": 127.52,
      "step": 1950,
      "token_acc": 0.8873806150822559,
      "train_speed(iter/s)": 0.10063
    },
    {
      "epoch": 2.289227166276347,
      "grad_norm": 0.23988991975784302,
      "learning_rate": 2.9175283259126943e-06,
      "loss": 0.31755337715148924,
      "memory(GiB)": 127.52,
      "step": 1955,
      "token_acc": 0.8924940331886264,
      "train_speed(iter/s)": 0.100631
    },
    {
      "epoch": 2.2950819672131146,
      "grad_norm": 0.23374050855636597,
      "learning_rate": 2.872097683561986e-06,
      "loss": 0.3156282424926758,
      "memory(GiB)": 127.52,
      "step": 1960,
      "token_acc": 0.8946095897383691,
      "train_speed(iter/s)": 0.100632
    },
    {
      "epoch": 2.300936768149883,
      "grad_norm": 0.22969146072864532,
      "learning_rate": 2.8269641501834834e-06,
      "loss": 0.32587299346923826,
      "memory(GiB)": 127.52,
      "step": 1965,
      "token_acc": 0.8774885813450646,
      "train_speed(iter/s)": 0.100637
    },
    {
      "epoch": 2.306791569086651,
      "grad_norm": 0.23242172598838806,
      "learning_rate": 2.782129607056848e-06,
      "loss": 0.31759541034698485,
      "memory(GiB)": 127.52,
      "step": 1970,
      "token_acc": 0.8783747102265459,
      "train_speed(iter/s)": 0.10064
    },
    {
      "epoch": 2.312646370023419,
      "grad_norm": 0.22935490310192108,
      "learning_rate": 2.7375959229990856e-06,
      "loss": 0.307840371131897,
      "memory(GiB)": 127.52,
      "step": 1975,
      "token_acc": 0.8862128010598808,
      "train_speed(iter/s)": 0.100639
    },
    {
      "epoch": 2.3185011709601873,
      "grad_norm": 0.2637212574481964,
      "learning_rate": 2.6933649542866326e-06,
      "loss": 0.3114126682281494,
      "memory(GiB)": 127.52,
      "step": 1980,
      "token_acc": 0.8820059272541622,
      "train_speed(iter/s)": 0.100646
    },
    {
      "epoch": 2.3243559718969555,
      "grad_norm": 0.22703419625759125,
      "learning_rate": 2.649438544577977e-06,
      "loss": 0.30065155029296875,
      "memory(GiB)": 127.52,
      "step": 1985,
      "token_acc": 0.8849238586641156,
      "train_speed(iter/s)": 0.100647
    },
    {
      "epoch": 2.330210772833724,
      "grad_norm": 0.22714027762413025,
      "learning_rate": 2.6058185248368317e-06,
      "loss": 0.3135934352874756,
      "memory(GiB)": 127.52,
      "step": 1990,
      "token_acc": 0.8923622270535968,
      "train_speed(iter/s)": 0.100647
    },
    {
      "epoch": 2.3360655737704916,
      "grad_norm": 0.23052531480789185,
      "learning_rate": 2.562506713255789e-06,
      "loss": 0.3088988304138184,
      "memory(GiB)": 127.52,
      "step": 1995,
      "token_acc": 0.8901272198016593,
      "train_speed(iter/s)": 0.100652
    },
    {
      "epoch": 2.34192037470726,
      "grad_norm": 0.2511214017868042,
      "learning_rate": 2.519504915180555e-06,
      "loss": 0.3128695487976074,
      "memory(GiB)": 127.52,
      "step": 2000,
      "token_acc": 0.8865565346454385,
      "train_speed(iter/s)": 0.100653
    },
    {
      "epoch": 2.347775175644028,
      "grad_norm": 0.23098479211330414,
      "learning_rate": 2.4768149230346917e-06,
      "loss": 0.3291048526763916,
      "memory(GiB)": 127.52,
      "step": 2005,
      "token_acc": 0.8865806253889527,
      "train_speed(iter/s)": 0.100648
    },
    {
      "epoch": 2.3536299765807964,
      "grad_norm": 0.2332172840833664,
      "learning_rate": 2.4344385162448924e-06,
      "loss": 0.31312854290008546,
      "memory(GiB)": 127.52,
      "step": 2010,
      "token_acc": 0.8905434652297092,
      "train_speed(iter/s)": 0.100649
    },
    {
      "epoch": 2.3594847775175642,
      "grad_norm": 0.229131281375885,
      "learning_rate": 2.392377461166826e-06,
      "loss": 0.3113706588745117,
      "memory(GiB)": 127.52,
      "step": 2015,
      "token_acc": 0.889476325707392,
      "train_speed(iter/s)": 0.100651
    },
    {
      "epoch": 2.3653395784543325,
      "grad_norm": 0.24932575225830078,
      "learning_rate": 2.350633511011511e-06,
      "loss": 0.3204165458679199,
      "memory(GiB)": 127.52,
      "step": 2020,
      "token_acc": 0.8841538567415554,
      "train_speed(iter/s)": 0.100647
    },
    {
      "epoch": 2.371194379391101,
      "grad_norm": 0.23387765884399414,
      "learning_rate": 2.309208405772221e-06,
      "loss": 0.32724220752716066,
      "memory(GiB)": 127.52,
      "step": 2025,
      "token_acc": 0.8882853658229917,
      "train_speed(iter/s)": 0.100652
    },
    {
      "epoch": 2.3770491803278686,
      "grad_norm": 0.24220742285251617,
      "learning_rate": 2.2681038721519768e-06,
      "loss": 0.33083477020263674,
      "memory(GiB)": 127.52,
      "step": 2030,
      "token_acc": 0.8838624553173172,
      "train_speed(iter/s)": 0.100651
    },
    {
      "epoch": 2.382903981264637,
      "grad_norm": 0.2579573690891266,
      "learning_rate": 2.227321623491563e-06,
      "loss": 0.3199321746826172,
      "memory(GiB)": 127.52,
      "step": 2035,
      "token_acc": 0.8799424487730837,
      "train_speed(iter/s)": 0.100653
    },
    {
      "epoch": 2.388758782201405,
      "grad_norm": 0.22851942479610443,
      "learning_rate": 2.186863359698108e-06,
      "loss": 0.3142981052398682,
      "memory(GiB)": 127.52,
      "step": 2040,
      "token_acc": 0.9041223969400765,
      "train_speed(iter/s)": 0.100653
    },
    {
      "epoch": 2.3946135831381734,
      "grad_norm": 0.24671818315982819,
      "learning_rate": 2.1467307671742377e-06,
      "loss": 0.31820495128631593,
      "memory(GiB)": 127.52,
      "step": 2045,
      "token_acc": 0.8822625886964798,
      "train_speed(iter/s)": 0.100657
    },
    {
      "epoch": 2.4004683840749417,
      "grad_norm": 0.2494201809167862,
      "learning_rate": 2.106925518747779e-06,
      "loss": 0.31292271614074707,
      "memory(GiB)": 127.52,
      "step": 2050,
      "token_acc": 0.8868852561536922,
      "train_speed(iter/s)": 0.100659
    },
    {
      "epoch": 2.4063231850117095,
      "grad_norm": 0.25766271352767944,
      "learning_rate": 2.06744927360202e-06,
      "loss": 0.315954852104187,
      "memory(GiB)": 127.52,
      "step": 2055,
      "token_acc": 0.8844018739071213,
      "train_speed(iter/s)": 0.100653
    },
    {
      "epoch": 2.4121779859484778,
      "grad_norm": 0.23304541409015656,
      "learning_rate": 2.0283036772065712e-06,
      "loss": 0.31738996505737305,
      "memory(GiB)": 127.52,
      "step": 2060,
      "token_acc": 0.8888605233133514,
      "train_speed(iter/s)": 0.100656
    },
    {
      "epoch": 2.418032786885246,
      "grad_norm": 0.23033016920089722,
      "learning_rate": 1.9894903612487683e-06,
      "loss": 0.32506499290466306,
      "memory(GiB)": 127.52,
      "step": 2065,
      "token_acc": 0.8765848323481849,
      "train_speed(iter/s)": 0.100657
    },
    {
      "epoch": 2.423887587822014,
      "grad_norm": 0.2522413730621338,
      "learning_rate": 1.9510109435656457e-06,
      "loss": 0.3240881681442261,
      "memory(GiB)": 127.52,
      "step": 2070,
      "token_acc": 0.8874444430454654,
      "train_speed(iter/s)": 0.10066
    },
    {
      "epoch": 2.429742388758782,
      "grad_norm": 0.23793016374111176,
      "learning_rate": 1.9128670280765283e-06,
      "loss": 0.326206374168396,
      "memory(GiB)": 127.52,
      "step": 2075,
      "token_acc": 0.8811696876529852,
      "train_speed(iter/s)": 0.100656
    },
    {
      "epoch": 2.4355971896955504,
      "grad_norm": 0.2260826826095581,
      "learning_rate": 1.8750602047161603e-06,
      "loss": 0.3155853748321533,
      "memory(GiB)": 127.52,
      "step": 2080,
      "token_acc": 0.8918628516614084,
      "train_speed(iter/s)": 0.100657
    },
    {
      "epoch": 2.4414519906323187,
      "grad_norm": 0.22915047407150269,
      "learning_rate": 1.8375920493684264e-06,
      "loss": 0.32075018882751466,
      "memory(GiB)": 127.52,
      "step": 2085,
      "token_acc": 0.8806146127312637,
      "train_speed(iter/s)": 0.100664
    },
    {
      "epoch": 2.4473067915690865,
      "grad_norm": 0.23555633425712585,
      "learning_rate": 1.8004641238006815e-06,
      "loss": 0.3198583126068115,
      "memory(GiB)": 127.52,
      "step": 2090,
      "token_acc": 0.8878798889856471,
      "train_speed(iter/s)": 0.100663
    },
    {
      "epoch": 2.4531615925058547,
      "grad_norm": 0.23224787414073944,
      "learning_rate": 1.7636779755986443e-06,
      "loss": 0.32527942657470704,
      "memory(GiB)": 127.52,
      "step": 2095,
      "token_acc": 0.8808102158192161,
      "train_speed(iter/s)": 0.100659
    },
    {
      "epoch": 2.459016393442623,
      "grad_norm": 0.2313682585954666,
      "learning_rate": 1.7272351381018792e-06,
      "loss": 0.3221132278442383,
      "memory(GiB)": 127.52,
      "step": 2100,
      "token_acc": 0.8723955898759107,
      "train_speed(iter/s)": 0.10066
    },
    {
      "epoch": 2.4648711943793913,
      "grad_norm": 0.23031777143478394,
      "learning_rate": 1.6911371303399048e-06,
      "loss": 0.3093102931976318,
      "memory(GiB)": 127.52,
      "step": 2105,
      "token_acc": 0.887525459211663,
      "train_speed(iter/s)": 0.100655
    },
    {
      "epoch": 2.470725995316159,
      "grad_norm": 0.23843398690223694,
      "learning_rate": 1.6553854569688632e-06,
      "loss": 0.3248276710510254,
      "memory(GiB)": 127.52,
      "step": 2110,
      "token_acc": 0.882843537798315,
      "train_speed(iter/s)": 0.100654
    },
    {
      "epoch": 2.4765807962529274,
      "grad_norm": 0.23203721642494202,
      "learning_rate": 1.619981608208796e-06,
      "loss": 0.32454729080200195,
      "memory(GiB)": 127.52,
      "step": 2115,
      "token_acc": 0.869970732560573,
      "train_speed(iter/s)": 0.100657
    },
    {
      "epoch": 2.4824355971896956,
      "grad_norm": 0.23711416125297546,
      "learning_rate": 1.584927059781548e-06,
      "loss": 0.3233715295791626,
      "memory(GiB)": 127.52,
      "step": 2120,
      "token_acc": 0.8797791727772037,
      "train_speed(iter/s)": 0.100658
    },
    {
      "epoch": 2.4882903981264635,
      "grad_norm": 0.23975679278373718,
      "learning_rate": 1.5502232728492362e-06,
      "loss": 0.31569533348083495,
      "memory(GiB)": 127.52,
      "step": 2125,
      "token_acc": 0.8874189972049156,
      "train_speed(iter/s)": 0.100661
    },
    {
      "epoch": 2.4941451990632317,
      "grad_norm": 0.23424658179283142,
      "learning_rate": 1.5158716939533524e-06,
      "loss": 0.32528119087219237,
      "memory(GiB)": 127.52,
      "step": 2130,
      "token_acc": 0.8848355062483098,
      "train_speed(iter/s)": 0.100663
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.2467930018901825,
      "learning_rate": 1.4818737549544725e-06,
      "loss": 0.3232418060302734,
      "memory(GiB)": 127.52,
      "step": 2135,
      "token_acc": 0.8760404837079283,
      "train_speed(iter/s)": 0.100669
    },
    {
      "epoch": 2.5058548009367683,
      "grad_norm": 0.23344840109348297,
      "learning_rate": 1.448230872972568e-06,
      "loss": 0.3205883979797363,
      "memory(GiB)": 127.52,
      "step": 2140,
      "token_acc": 0.8896608528350288,
      "train_speed(iter/s)": 0.100665
    },
    {
      "epoch": 2.5117096018735365,
      "grad_norm": 0.2276953160762787,
      "learning_rate": 1.4149444503279297e-06,
      "loss": 0.32780184745788576,
      "memory(GiB)": 127.52,
      "step": 2145,
      "token_acc": 0.8763619018928553,
      "train_speed(iter/s)": 0.100666
    },
    {
      "epoch": 2.5175644028103044,
      "grad_norm": 0.23720286786556244,
      "learning_rate": 1.382015874482735e-06,
      "loss": 0.3210983037948608,
      "memory(GiB)": 127.52,
      "step": 2150,
      "token_acc": 0.8830952351167766,
      "train_speed(iter/s)": 0.100669
    },
    {
      "epoch": 2.5234192037470726,
      "grad_norm": 0.2429177612066269,
      "learning_rate": 1.3494465179831895e-06,
      "loss": 0.31808924674987793,
      "memory(GiB)": 127.52,
      "step": 2155,
      "token_acc": 0.8801182829610709,
      "train_speed(iter/s)": 0.100671
    },
    {
      "epoch": 2.529274004683841,
      "grad_norm": 0.2192358821630478,
      "learning_rate": 1.3172377384023393e-06,
      "loss": 0.3137265682220459,
      "memory(GiB)": 127.52,
      "step": 2160,
      "token_acc": 0.8851310631053786,
      "train_speed(iter/s)": 0.100675
    },
    {
      "epoch": 2.5351288056206087,
      "grad_norm": 0.22843384742736816,
      "learning_rate": 1.2853908782834722e-06,
      "loss": 0.31639652252197265,
      "memory(GiB)": 127.52,
      "step": 2165,
      "token_acc": 0.8930099545248551,
      "train_speed(iter/s)": 0.100673
    },
    {
      "epoch": 2.540983606557377,
      "grad_norm": 0.23414385318756104,
      "learning_rate": 1.2539072650841523e-06,
      "loss": 0.32384276390075684,
      "memory(GiB)": 127.52,
      "step": 2170,
      "token_acc": 0.8826712369541582,
      "train_speed(iter/s)": 0.100679
    },
    {
      "epoch": 2.5468384074941453,
      "grad_norm": 0.2386016696691513,
      "learning_rate": 1.2227882111209011e-06,
      "loss": 0.3276023864746094,
      "memory(GiB)": 127.52,
      "step": 2175,
      "token_acc": 0.876178791079083,
      "train_speed(iter/s)": 0.10068
    },
    {
      "epoch": 2.552693208430913,
      "grad_norm": 0.23498761653900146,
      "learning_rate": 1.1920350135144898e-06,
      "loss": 0.3207254409790039,
      "memory(GiB)": 127.52,
      "step": 2180,
      "token_acc": 0.8885690220875708,
      "train_speed(iter/s)": 0.100681
    },
    {
      "epoch": 2.5585480093676813,
      "grad_norm": 0.23011547327041626,
      "learning_rate": 1.1616489541358678e-06,
      "loss": 0.3184302806854248,
      "memory(GiB)": 127.52,
      "step": 2185,
      "token_acc": 0.8778273150286384,
      "train_speed(iter/s)": 0.100682
    },
    {
      "epoch": 2.5644028103044496,
      "grad_norm": 0.22844338417053223,
      "learning_rate": 1.1316312995527424e-06,
      "loss": 0.3216708183288574,
      "memory(GiB)": 127.52,
      "step": 2190,
      "token_acc": 0.8842230056468974,
      "train_speed(iter/s)": 0.100685
    },
    {
      "epoch": 2.570257611241218,
      "grad_norm": 0.23386669158935547,
      "learning_rate": 1.1019833009767744e-06,
      "loss": 0.3198892831802368,
      "memory(GiB)": 127.52,
      "step": 2195,
      "token_acc": 0.881730841074942,
      "train_speed(iter/s)": 0.100684
    },
    {
      "epoch": 2.576112412177986,
      "grad_norm": 0.23416638374328613,
      "learning_rate": 1.072706194211426e-06,
      "loss": 0.32181246280670167,
      "memory(GiB)": 127.52,
      "step": 2200,
      "token_acc": 0.8872248114887651,
      "train_speed(iter/s)": 0.100687
    },
    {
      "epoch": 2.581967213114754,
      "grad_norm": 0.232351616024971,
      "learning_rate": 1.0438011996004581e-06,
      "loss": 0.32013840675354005,
      "memory(GiB)": 127.52,
      "step": 2205,
      "token_acc": 0.8815920274367514,
      "train_speed(iter/s)": 0.100688
    },
    {
      "epoch": 2.5878220140515222,
      "grad_norm": 0.24018974602222443,
      "learning_rate": 1.0152695219770558e-06,
      "loss": 0.3074916124343872,
      "memory(GiB)": 127.52,
      "step": 2210,
      "token_acc": 0.8911461159004883,
      "train_speed(iter/s)": 0.100686
    },
    {
      "epoch": 2.5936768149882905,
      "grad_norm": 0.2339586764574051,
      "learning_rate": 9.871123506136037e-07,
      "loss": 0.3152151107788086,
      "memory(GiB)": 127.52,
      "step": 2215,
      "token_acc": 0.8945800996908322,
      "train_speed(iter/s)": 0.100689
    },
    {
      "epoch": 2.5995316159250583,
      "grad_norm": 0.23918944597244263,
      "learning_rate": 9.593308591721274e-07,
      "loss": 0.3115771532058716,
      "memory(GiB)": 127.52,
      "step": 2220,
      "token_acc": 0.8863534338516209,
      "train_speed(iter/s)": 0.100692
    },
    {
      "epoch": 2.6053864168618266,
      "grad_norm": 0.228268101811409,
      "learning_rate": 9.319262056553602e-07,
      "loss": 0.3226304531097412,
      "memory(GiB)": 127.52,
      "step": 2225,
      "token_acc": 0.8902835788085294,
      "train_speed(iter/s)": 0.10069
    },
    {
      "epoch": 2.611241217798595,
      "grad_norm": 0.23581595718860626,
      "learning_rate": 9.048995323584764e-07,
      "loss": 0.3258847713470459,
      "memory(GiB)": 127.52,
      "step": 2230,
      "token_acc": 0.8929581827894788,
      "train_speed(iter/s)": 0.10069
    },
    {
      "epoch": 2.617096018735363,
      "grad_norm": 0.4460615813732147,
      "learning_rate": 8.78251965821485e-07,
      "loss": 0.3083215236663818,
      "memory(GiB)": 127.52,
      "step": 2235,
      "token_acc": 0.8851051496528254,
      "train_speed(iter/s)": 0.10069
    },
    {
      "epoch": 2.6229508196721314,
      "grad_norm": 0.23269429802894592,
      "learning_rate": 8.519846167822665e-07,
      "loss": 0.31586997509002684,
      "memory(GiB)": 127.52,
      "step": 2240,
      "token_acc": 0.8981023709170914,
      "train_speed(iter/s)": 0.100691
    },
    {
      "epoch": 2.628805620608899,
      "grad_norm": 0.608095645904541,
      "learning_rate": 8.260985801302734e-07,
      "loss": 0.30504627227783204,
      "memory(GiB)": 127.52,
      "step": 2245,
      "token_acc": 0.8836382464618571,
      "train_speed(iter/s)": 0.100692
    },
    {
      "epoch": 2.6346604215456675,
      "grad_norm": 0.22992344200611115,
      "learning_rate": 8.005949348608977e-07,
      "loss": 0.31817898750305174,
      "memory(GiB)": 127.52,
      "step": 2250,
      "token_acc": 0.8803807403423412,
      "train_speed(iter/s)": 0.100694
    },
    {
      "epoch": 2.6405152224824358,
      "grad_norm": 0.2216484099626541,
      "learning_rate": 7.754747440304911e-07,
      "loss": 0.3218961000442505,
      "memory(GiB)": 127.52,
      "step": 2255,
      "token_acc": 0.8802025202800865,
      "train_speed(iter/s)": 0.1007
    },
    {
      "epoch": 2.6463700234192036,
      "grad_norm": 0.22643844783306122,
      "learning_rate": 7.507390547120541e-07,
      "loss": 0.31406736373901367,
      "memory(GiB)": 127.52,
      "step": 2260,
      "token_acc": 0.8841787048704839,
      "train_speed(iter/s)": 0.100704
    },
    {
      "epoch": 2.652224824355972,
      "grad_norm": 0.22945396602153778,
      "learning_rate": 7.263888979515954e-07,
      "loss": 0.32517061233520506,
      "memory(GiB)": 127.52,
      "step": 2265,
      "token_acc": 0.8788511831616095,
      "train_speed(iter/s)": 0.10071
    },
    {
      "epoch": 2.65807962529274,
      "grad_norm": 0.22719787061214447,
      "learning_rate": 7.024252887251548e-07,
      "loss": 0.31670680046081545,
      "memory(GiB)": 127.52,
      "step": 2270,
      "token_acc": 0.8838603030141137,
      "train_speed(iter/s)": 0.100707
    },
    {
      "epoch": 2.663934426229508,
      "grad_norm": 0.2364586889743805,
      "learning_rate": 6.788492258964896e-07,
      "loss": 0.3206209659576416,
      "memory(GiB)": 127.52,
      "step": 2275,
      "token_acc": 0.8808837716472833,
      "train_speed(iter/s)": 0.100707
    },
    {
      "epoch": 2.669789227166276,
      "grad_norm": 0.23205353319644928,
      "learning_rate": 6.556616921754489e-07,
      "loss": 0.3177974224090576,
      "memory(GiB)": 127.52,
      "step": 2280,
      "token_acc": 0.8846845210507196,
      "train_speed(iter/s)": 0.100709
    },
    {
      "epoch": 2.6756440281030445,
      "grad_norm": 0.23928001523017883,
      "learning_rate": 6.328636540770028e-07,
      "loss": 0.3218786001205444,
      "memory(GiB)": 127.52,
      "step": 2285,
      "token_acc": 0.8839321457165733,
      "train_speed(iter/s)": 0.10071
    },
    {
      "epoch": 2.6814988290398127,
      "grad_norm": 0.22948609292507172,
      "learning_rate": 6.10456061880963e-07,
      "loss": 0.32559771537780763,
      "memory(GiB)": 127.52,
      "step": 2290,
      "token_acc": 0.888954265344254,
      "train_speed(iter/s)": 0.10071
    },
    {
      "epoch": 2.687353629976581,
      "grad_norm": 0.22480416297912598,
      "learning_rate": 5.884398495923727e-07,
      "loss": 0.31432313919067384,
      "memory(GiB)": 127.52,
      "step": 2295,
      "token_acc": 0.8786473253733409,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 2.693208430913349,
      "grad_norm": 0.49891427159309387,
      "learning_rate": 5.668159349025649e-07,
      "loss": 0.33366761207580564,
      "memory(GiB)": 127.52,
      "step": 2300,
      "token_acc": 0.8706380208333333,
      "train_speed(iter/s)": 0.100713
    },
    {
      "epoch": 2.699063231850117,
      "grad_norm": 0.23788191378116608,
      "learning_rate": 5.455852191509214e-07,
      "loss": 0.326168417930603,
      "memory(GiB)": 127.52,
      "step": 2305,
      "token_acc": 0.8757156059468948,
      "train_speed(iter/s)": 0.100714
    },
    {
      "epoch": 2.7049180327868854,
      "grad_norm": 0.23934431374073029,
      "learning_rate": 5.247485872873026e-07,
      "loss": 0.3131624460220337,
      "memory(GiB)": 127.52,
      "step": 2310,
      "token_acc": 0.8873159330925727,
      "train_speed(iter/s)": 0.100715
    },
    {
      "epoch": 2.710772833723653,
      "grad_norm": 0.22434021532535553,
      "learning_rate": 5.043069078351526e-07,
      "loss": 0.3083023548126221,
      "memory(GiB)": 127.52,
      "step": 2315,
      "token_acc": 0.8900379146919432,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 2.7166276346604215,
      "grad_norm": 0.2241913378238678,
      "learning_rate": 4.842610328552999e-07,
      "loss": 0.31645286083221436,
      "memory(GiB)": 127.52,
      "step": 2320,
      "token_acc": 0.8860757524370778,
      "train_speed(iter/s)": 0.100719
    },
    {
      "epoch": 2.7224824355971897,
      "grad_norm": 0.22683191299438477,
      "learning_rate": 4.6461179791044806e-07,
      "loss": 0.3162517547607422,
      "memory(GiB)": 127.52,
      "step": 2325,
      "token_acc": 0.8806341851421645,
      "train_speed(iter/s)": 0.100722
    },
    {
      "epoch": 2.728337236533958,
      "grad_norm": 0.22332416474819183,
      "learning_rate": 4.453600220303378e-07,
      "loss": 0.3006160736083984,
      "memory(GiB)": 127.52,
      "step": 2330,
      "token_acc": 0.8811269139759368,
      "train_speed(iter/s)": 0.100726
    },
    {
      "epoch": 2.7341920374707263,
      "grad_norm": 0.2320730835199356,
      "learning_rate": 4.2650650767761535e-07,
      "loss": 0.3053130149841309,
      "memory(GiB)": 127.52,
      "step": 2335,
      "token_acc": 0.8909103410770822,
      "train_speed(iter/s)": 0.100726
    },
    {
      "epoch": 2.740046838407494,
      "grad_norm": 0.2575525939464569,
      "learning_rate": 4.0805204071437953e-07,
      "loss": 0.32894713878631593,
      "memory(GiB)": 127.52,
      "step": 2340,
      "token_acc": 0.880288983757294,
      "train_speed(iter/s)": 0.100724
    },
    {
      "epoch": 2.7459016393442623,
      "grad_norm": 0.2190413624048233,
      "learning_rate": 3.899973903694243e-07,
      "loss": 0.32172608375549316,
      "memory(GiB)": 127.52,
      "step": 2345,
      "token_acc": 0.8842697990204148,
      "train_speed(iter/s)": 0.100724
    },
    {
      "epoch": 2.7517564402810306,
      "grad_norm": 0.22509151697158813,
      "learning_rate": 3.72343309206179e-07,
      "loss": 0.31258511543273926,
      "memory(GiB)": 127.52,
      "step": 2350,
      "token_acc": 0.8854250593299245,
      "train_speed(iter/s)": 0.100723
    },
    {
      "epoch": 2.7576112412177984,
      "grad_norm": 0.22671233117580414,
      "learning_rate": 3.55090533091339e-07,
      "loss": 0.3143455028533936,
      "memory(GiB)": 127.52,
      "step": 2355,
      "token_acc": 0.896848520654861,
      "train_speed(iter/s)": 0.10072
    },
    {
      "epoch": 2.7634660421545667,
      "grad_norm": 0.21764405071735382,
      "learning_rate": 3.382397811641858e-07,
      "loss": 0.3072871208190918,
      "memory(GiB)": 127.52,
      "step": 2360,
      "token_acc": 0.8893455142073456,
      "train_speed(iter/s)": 0.100725
    },
    {
      "epoch": 2.769320843091335,
      "grad_norm": 0.22008980810642242,
      "learning_rate": 3.217917558066241e-07,
      "loss": 0.31331815719604494,
      "memory(GiB)": 127.52,
      "step": 2365,
      "token_acc": 0.8801702516246458,
      "train_speed(iter/s)": 0.100727
    },
    {
      "epoch": 2.775175644028103,
      "grad_norm": 0.2225882112979889,
      "learning_rate": 3.057471426138958e-07,
      "loss": 0.3275087833404541,
      "memory(GiB)": 127.52,
      "step": 2370,
      "token_acc": 0.8743533027834035,
      "train_speed(iter/s)": 0.100726
    },
    {
      "epoch": 2.781030444964871,
      "grad_norm": 0.22171831130981445,
      "learning_rate": 2.901066103660033e-07,
      "loss": 0.3129570484161377,
      "memory(GiB)": 127.52,
      "step": 2375,
      "token_acc": 0.8872727501597082,
      "train_speed(iter/s)": 0.100728
    },
    {
      "epoch": 2.7868852459016393,
      "grad_norm": 0.2355940192937851,
      "learning_rate": 2.7487081099983435e-07,
      "loss": 0.32728214263916017,
      "memory(GiB)": 127.52,
      "step": 2380,
      "token_acc": 0.882063511039243,
      "train_speed(iter/s)": 0.100731
    },
    {
      "epoch": 2.7927400468384076,
      "grad_norm": 0.21898697316646576,
      "learning_rate": 2.6004037958199167e-07,
      "loss": 0.31028578281402586,
      "memory(GiB)": 127.52,
      "step": 2385,
      "token_acc": 0.8959504867399893,
      "train_speed(iter/s)": 0.100732
    },
    {
      "epoch": 2.798594847775176,
      "grad_norm": 0.22940264642238617,
      "learning_rate": 2.4561593428231165e-07,
      "loss": 0.3168987274169922,
      "memory(GiB)": 127.52,
      "step": 2390,
      "token_acc": 0.9043824201593208,
      "train_speed(iter/s)": 0.100729
    },
    {
      "epoch": 2.8044496487119437,
      "grad_norm": 0.22128568589687347,
      "learning_rate": 2.3159807634811182e-07,
      "loss": 0.30646657943725586,
      "memory(GiB)": 127.52,
      "step": 2395,
      "token_acc": 0.890519620223563,
      "train_speed(iter/s)": 0.10073
    },
    {
      "epoch": 2.810304449648712,
      "grad_norm": 0.23035509884357452,
      "learning_rate": 2.1798739007911517e-07,
      "loss": 0.321412467956543,
      "memory(GiB)": 127.52,
      "step": 2400,
      "token_acc": 0.8813866834368367,
      "train_speed(iter/s)": 0.100729
    },
    {
      "epoch": 2.8161592505854802,
      "grad_norm": 0.22361230850219727,
      "learning_rate": 2.0478444280310206e-07,
      "loss": 0.314456582069397,
      "memory(GiB)": 127.52,
      "step": 2405,
      "token_acc": 0.8847936237191627,
      "train_speed(iter/s)": 0.100733
    },
    {
      "epoch": 2.822014051522248,
      "grad_norm": 0.248680979013443,
      "learning_rate": 1.919897848522656e-07,
      "loss": 0.31545486450195315,
      "memory(GiB)": 127.52,
      "step": 2410,
      "token_acc": 0.8842675175238047,
      "train_speed(iter/s)": 0.100732
    },
    {
      "epoch": 2.8278688524590163,
      "grad_norm": 0.2220403105020523,
      "learning_rate": 1.796039495402646e-07,
      "loss": 0.3194711923599243,
      "memory(GiB)": 127.52,
      "step": 2415,
      "token_acc": 0.889650254732648,
      "train_speed(iter/s)": 0.100731
    },
    {
      "epoch": 2.8337236533957846,
      "grad_norm": 0.23251083493232727,
      "learning_rate": 1.6762745313999795e-07,
      "loss": 0.32554826736450193,
      "memory(GiB)": 127.52,
      "step": 2420,
      "token_acc": 0.8688351785435834,
      "train_speed(iter/s)": 0.100728
    },
    {
      "epoch": 2.839578454332553,
      "grad_norm": 0.2339450716972351,
      "learning_rate": 1.5606079486208846e-07,
      "loss": 0.3137704372406006,
      "memory(GiB)": 127.52,
      "step": 2425,
      "token_acc": 0.8856111133651886,
      "train_speed(iter/s)": 0.100732
    },
    {
      "epoch": 2.845433255269321,
      "grad_norm": 0.22966544330120087,
      "learning_rate": 1.449044568340663e-07,
      "loss": 0.32210094928741456,
      "memory(GiB)": 127.52,
      "step": 2430,
      "token_acc": 0.8884470889772489,
      "train_speed(iter/s)": 0.100732
    },
    {
      "epoch": 2.851288056206089,
      "grad_norm": 0.24191494286060333,
      "learning_rate": 1.3415890408027932e-07,
      "loss": 0.31206402778625486,
      "memory(GiB)": 127.52,
      "step": 2435,
      "token_acc": 0.8830502196115786,
      "train_speed(iter/s)": 0.100731
    },
    {
      "epoch": 2.857142857142857,
      "grad_norm": 0.23956511914730072,
      "learning_rate": 1.2382458450250657e-07,
      "loss": 0.32455346584320066,
      "memory(GiB)": 127.52,
      "step": 2440,
      "token_acc": 0.8758227950966726,
      "train_speed(iter/s)": 0.100735
    },
    {
      "epoch": 2.8629976580796255,
      "grad_norm": 0.22552776336669922,
      "learning_rate": 1.1390192886129304e-07,
      "loss": 0.3120935678482056,
      "memory(GiB)": 127.52,
      "step": 2445,
      "token_acc": 0.897060631760815,
      "train_speed(iter/s)": 0.100735
    },
    {
      "epoch": 2.8688524590163933,
      "grad_norm": 0.2666381001472473,
      "learning_rate": 1.0439135075798634e-07,
      "loss": 0.3291801452636719,
      "memory(GiB)": 127.52,
      "step": 2450,
      "token_acc": 0.8820067150139295,
      "train_speed(iter/s)": 0.100741
    },
    {
      "epoch": 2.8747072599531616,
      "grad_norm": 0.22115741670131683,
      "learning_rate": 9.529324661750494e-08,
      "loss": 0.32175321578979493,
      "memory(GiB)": 127.52,
      "step": 2455,
      "token_acc": 0.8775227487104135,
      "train_speed(iter/s)": 0.100739
    },
    {
      "epoch": 2.88056206088993,
      "grad_norm": 0.22983959317207336,
      "learning_rate": 8.6607995671808e-08,
      "loss": 0.31844320297241213,
      "memory(GiB)": 127.52,
      "step": 2460,
      "token_acc": 0.8813101879265747,
      "train_speed(iter/s)": 0.10074
    },
    {
      "epoch": 2.8864168618266977,
      "grad_norm": 0.23733210563659668,
      "learning_rate": 7.833595994409248e-08,
      "loss": 0.3080190658569336,
      "memory(GiB)": 127.52,
      "step": 2465,
      "token_acc": 0.88289333750391,
      "train_speed(iter/s)": 0.100738
    },
    {
      "epoch": 2.892271662763466,
      "grad_norm": 0.24082650244235992,
      "learning_rate": 7.047748423370193e-08,
      "loss": 0.3234051465988159,
      "memory(GiB)": 127.52,
      "step": 2470,
      "token_acc": 0.8791906373996674,
      "train_speed(iter/s)": 0.100744
    },
    {
      "epoch": 2.898126463700234,
      "grad_norm": 0.24151204526424408,
      "learning_rate": 6.303289610175233e-08,
      "loss": 0.31094648838043215,
      "memory(GiB)": 127.52,
      "step": 2475,
      "token_acc": 0.8864608150470219,
      "train_speed(iter/s)": 0.100743
    },
    {
      "epoch": 2.9039812646370025,
      "grad_norm": 0.23166167736053467,
      "learning_rate": 5.6002505857480906e-08,
      "loss": 0.3175530910491943,
      "memory(GiB)": 127.52,
      "step": 2480,
      "token_acc": 0.8859342832291451,
      "train_speed(iter/s)": 0.100739
    },
    {
      "epoch": 2.9098360655737707,
      "grad_norm": 0.22753314673900604,
      "learning_rate": 4.938660654530969e-08,
      "loss": 0.3289816379547119,
      "memory(GiB)": 127.52,
      "step": 2485,
      "token_acc": 0.8799638876393262,
      "train_speed(iter/s)": 0.100739
    },
    {
      "epoch": 2.9156908665105385,
      "grad_norm": 0.22824768722057343,
      "learning_rate": 4.318547393263317e-08,
      "loss": 0.33161611557006837,
      "memory(GiB)": 127.52,
      "step": 2490,
      "token_acc": 0.8840203211591419,
      "train_speed(iter/s)": 0.100737
    },
    {
      "epoch": 2.921545667447307,
      "grad_norm": 0.2232208400964737,
      "learning_rate": 3.739936649832188e-08,
      "loss": 0.31346931457519533,
      "memory(GiB)": 127.52,
      "step": 2495,
      "token_acc": 0.8866209251707488,
      "train_speed(iter/s)": 0.100742
    },
    {
      "epoch": 2.927400468384075,
      "grad_norm": 0.22846031188964844,
      "learning_rate": 3.2028525421946563e-08,
      "loss": 0.31502933502197267,
      "memory(GiB)": 127.52,
      "step": 2500,
      "token_acc": 0.8958872772065662,
      "train_speed(iter/s)": 0.100746
    },
    {
      "epoch": 2.933255269320843,
      "grad_norm": 0.22012905776500702,
      "learning_rate": 2.70731745737296e-08,
      "loss": 0.317963695526123,
      "memory(GiB)": 127.52,
      "step": 2505,
      "token_acc": 0.8870393801646438,
      "train_speed(iter/s)": 0.100749
    },
    {
      "epoch": 2.939110070257611,
      "grad_norm": 0.22778548300266266,
      "learning_rate": 2.2533520505211294e-08,
      "loss": 0.3122371196746826,
      "memory(GiB)": 127.52,
      "step": 2510,
      "token_acc": 0.888907967032967,
      "train_speed(iter/s)": 0.100751
    },
    {
      "epoch": 2.9449648711943794,
      "grad_norm": 0.22804217040538788,
      "learning_rate": 1.8409752440639027e-08,
      "loss": 0.3041959524154663,
      "memory(GiB)": 127.52,
      "step": 2515,
      "token_acc": 0.8861121607989981,
      "train_speed(iter/s)": 0.100754
    },
    {
      "epoch": 2.9508196721311473,
      "grad_norm": 0.2233329713344574,
      "learning_rate": 1.470204226908134e-08,
      "loss": 0.32151806354522705,
      "memory(GiB)": 127.52,
      "step": 2520,
      "token_acc": 0.8879425846286458,
      "train_speed(iter/s)": 0.100749
    },
    {
      "epoch": 2.9566744730679155,
      "grad_norm": 0.24781863391399384,
      "learning_rate": 1.1410544537263645e-08,
      "loss": 0.32978765964508056,
      "memory(GiB)": 127.52,
      "step": 2525,
      "token_acc": 0.8869459116971757,
      "train_speed(iter/s)": 0.100749
    },
    {
      "epoch": 2.962529274004684,
      "grad_norm": 0.22210603952407837,
      "learning_rate": 8.535396443124511e-09,
      "loss": 0.30834412574768066,
      "memory(GiB)": 127.52,
      "step": 2530,
      "token_acc": 0.8843790902885199,
      "train_speed(iter/s)": 0.100751
    },
    {
      "epoch": 2.968384074941452,
      "grad_norm": 0.22260542213916779,
      "learning_rate": 6.076717830098e-09,
      "loss": 0.31018791198730467,
      "memory(GiB)": 127.52,
      "step": 2535,
      "token_acc": 0.8947010997127103,
      "train_speed(iter/s)": 0.10075
    },
    {
      "epoch": 2.9742388758782203,
      "grad_norm": 0.24026013910770416,
      "learning_rate": 4.034611182121007e-09,
      "loss": 0.3117814064025879,
      "memory(GiB)": 127.52,
      "step": 2540,
      "token_acc": 0.8939134081534292,
      "train_speed(iter/s)": 0.100749
    },
    {
      "epoch": 2.980093676814988,
      "grad_norm": 0.22812722623348236,
      "learning_rate": 2.40916161935445e-09,
      "loss": 0.31728358268737794,
      "memory(GiB)": 127.52,
      "step": 2545,
      "token_acc": 0.883892058363205,
      "train_speed(iter/s)": 0.10075
    },
    {
      "epoch": 2.9859484777517564,
      "grad_norm": 0.2219596952199936,
      "learning_rate": 1.2004368946427758e-09,
      "loss": 0.31175081729888915,
      "memory(GiB)": 127.52,
      "step": 2550,
      "token_acc": 0.8867498701584854,
      "train_speed(iter/s)": 0.100752
    },
    {
      "epoch": 2.9918032786885247,
      "grad_norm": 0.22541016340255737,
      "learning_rate": 4.084873906851083e-10,
      "loss": 0.31843390464782717,
      "memory(GiB)": 127.52,
      "step": 2555,
      "token_acc": 0.893655570084918,
      "train_speed(iter/s)": 0.10075
    },
    {
      "epoch": 2.9976580796252925,
      "grad_norm": 0.22078001499176025,
      "learning_rate": 3.334611793692766e-11,
      "loss": 0.31821532249450685,
      "memory(GiB)": 127.52,
      "step": 2560,
      "token_acc": 0.8979642133800124,
      "train_speed(iter/s)": 0.100751
    }
  ],
  "logging_steps": 5,
  "max_steps": 2562,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 1.0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1575512474484736.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}