{
  "best_metric": 0.58375472,
  "best_model_checkpoint": "/export/home2/zli/kc/mm_rag/Qwen2.5-32B-Instruct_lora/checkpoint-1026",
  "epoch": 0.9997563946406821,
  "eval_steps": 100,
  "global_step": 1026,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00097442143727162,
      "grad_norm": 0.8529725074768066,
      "learning_rate": 1.9230769230769234e-06,
      "loss": 0.9744532108306885,
      "memory(GiB)": 255.29,
      "step": 1,
      "token_acc": 0.7235609103078983,
      "train_speed(iter/s)": 0.048136
    },
    {
      "epoch": 0.0048721071863581,
      "grad_norm": 0.9313930869102478,
      "learning_rate": 9.615384615384616e-06,
      "loss": 0.7735831141471863,
      "memory(GiB)": 307.13,
      "step": 5,
      "token_acc": 0.7883002659030477,
      "train_speed(iter/s)": 0.052895
    },
    {
      "epoch": 0.0097442143727162,
      "grad_norm": 0.5147601962089539,
      "learning_rate": 1.923076923076923e-05,
      "loss": 0.8932640075683593,
      "memory(GiB)": 357.61,
      "step": 10,
      "token_acc": 0.7670103092783506,
      "train_speed(iter/s)": 0.055392
    },
    {
      "epoch": 0.014616321559074299,
      "grad_norm": 0.3254891037940979,
      "learning_rate": 2.8846153846153845e-05,
      "loss": 0.7951784610748291,
      "memory(GiB)": 357.63,
      "step": 15,
      "token_acc": 0.7827709279688514,
      "train_speed(iter/s)": 0.058176
    },
    {
      "epoch": 0.0194884287454324,
      "grad_norm": 0.5581763982772827,
      "learning_rate": 3.846153846153846e-05,
      "loss": 0.956171703338623,
      "memory(GiB)": 357.63,
      "step": 20,
      "token_acc": 0.7419072615923009,
      "train_speed(iter/s)": 0.05832
    },
    {
      "epoch": 0.024360535931790498,
      "grad_norm": 0.3584084212779999,
      "learning_rate": 4.8076923076923084e-05,
      "loss": 0.8373254776000977,
      "memory(GiB)": 357.64,
      "step": 25,
      "token_acc": 0.7718067293892521,
      "train_speed(iter/s)": 0.057013
    },
    {
      "epoch": 0.029232643118148598,
      "grad_norm": 0.43336302042007446,
      "learning_rate": 5.769230769230769e-05,
      "loss": 0.7370581150054931,
      "memory(GiB)": 357.64,
      "step": 30,
      "token_acc": 0.7800821355236139,
      "train_speed(iter/s)": 0.057318
    },
    {
      "epoch": 0.0341047503045067,
      "grad_norm": 0.6522459983825684,
      "learning_rate": 6.730769230769232e-05,
      "loss": 0.8316493988037109,
      "memory(GiB)": 357.64,
      "step": 35,
      "token_acc": 0.7533095188064719,
      "train_speed(iter/s)": 0.0583
    },
    {
      "epoch": 0.0389768574908648,
      "grad_norm": 0.2728117108345032,
      "learning_rate": 7.692307692307693e-05,
      "loss": 0.7739034652709961,
      "memory(GiB)": 357.64,
      "step": 40,
      "token_acc": 0.7733619763694952,
      "train_speed(iter/s)": 0.058058
    },
    {
      "epoch": 0.0438489646772229,
      "grad_norm": 0.5565893054008484,
      "learning_rate": 8.653846153846155e-05,
      "loss": 0.664579200744629,
      "memory(GiB)": 357.64,
      "step": 45,
      "token_acc": 0.7940859054608245,
      "train_speed(iter/s)": 0.058044
    },
    {
      "epoch": 0.048721071863580996,
      "grad_norm": 0.8710922002792358,
      "learning_rate": 9.615384615384617e-05,
      "loss": 0.6327468872070312,
      "memory(GiB)": 378.13,
      "step": 50,
      "token_acc": 0.8048907388137357,
      "train_speed(iter/s)": 0.057666
    },
    {
      "epoch": 0.0535931790499391,
      "grad_norm": 0.5048324465751648,
      "learning_rate": 9.999765921804365e-05,
      "loss": 0.7563381671905518,
      "memory(GiB)": 378.13,
      "step": 55,
      "token_acc": 0.7769541778975741,
      "train_speed(iter/s)": 0.056465
    },
    {
      "epoch": 0.058465286236297195,
      "grad_norm": 0.4348597824573517,
      "learning_rate": 9.998335523311734e-05,
      "loss": 0.6969810009002686,
      "memory(GiB)": 378.13,
      "step": 60,
      "token_acc": 0.7881806108897742,
      "train_speed(iter/s)": 0.056264
    },
    {
      "epoch": 0.06333739342265529,
      "grad_norm": 0.3995300233364105,
      "learning_rate": 9.995605141340247e-05,
      "loss": 0.6338334083557129,
      "memory(GiB)": 378.13,
      "step": 65,
      "token_acc": 0.8006442376521117,
      "train_speed(iter/s)": 0.056356
    },
    {
      "epoch": 0.0682095006090134,
      "grad_norm": 0.25958451628685,
      "learning_rate": 9.991575486016592e-05,
      "loss": 0.7143070697784424,
      "memory(GiB)": 378.13,
      "step": 70,
      "token_acc": 0.7797544920832592,
      "train_speed(iter/s)": 0.056342
    },
    {
      "epoch": 0.0730816077953715,
      "grad_norm": 0.3476051688194275,
      "learning_rate": 9.986247605386727e-05,
      "loss": 0.6742859840393066,
      "memory(GiB)": 378.13,
      "step": 75,
      "token_acc": 0.7907263751763046,
      "train_speed(iter/s)": 0.056661
    },
    {
      "epoch": 0.0779537149817296,
      "grad_norm": 0.3681824505329132,
      "learning_rate": 9.979622885143301e-05,
      "loss": 0.5565629959106445,
      "memory(GiB)": 378.13,
      "step": 80,
      "token_acc": 0.8259753593429158,
      "train_speed(iter/s)": 0.056802
    },
    {
      "epoch": 0.0828258221680877,
      "grad_norm": 0.4626450836658478,
      "learning_rate": 9.97170304826526e-05,
      "loss": 0.6965714931488037,
      "memory(GiB)": 378.13,
      "step": 85,
      "token_acc": 0.7883802169516455,
      "train_speed(iter/s)": 0.057068
    },
    {
      "epoch": 0.0876979293544458,
      "grad_norm": 0.6139679551124573,
      "learning_rate": 9.962490154569727e-05,
      "loss": 0.670227336883545,
      "memory(GiB)": 378.13,
      "step": 90,
      "token_acc": 0.7868181818181819,
      "train_speed(iter/s)": 0.056985
    },
    {
      "epoch": 0.0925700365408039,
      "grad_norm": 0.3063270151615143,
      "learning_rate": 9.95198660017628e-05,
      "loss": 0.6900132179260254,
      "memory(GiB)": 378.13,
      "step": 95,
      "token_acc": 0.7969001610305958,
      "train_speed(iter/s)": 0.056931
    },
    {
      "epoch": 0.09744214372716199,
      "grad_norm": 0.6139111518859863,
      "learning_rate": 9.940195116883755e-05,
      "loss": 0.6138424396514892,
      "memory(GiB)": 378.13,
      "step": 100,
      "token_acc": 0.8159609120521173,
      "train_speed(iter/s)": 0.056746
    },
    {
      "epoch": 0.09744214372716199,
      "eval_loss": 0.7148731350898743,
      "eval_runtime": 6.1133,
      "eval_samples_per_second": 0.654,
      "eval_steps_per_second": 0.654,
      "step": 100
    },
    {
      "epoch": 0.1023142509135201,
      "grad_norm": 0.2960892617702484,
      "learning_rate": 9.927118771459763e-05,
      "loss": 0.7610847473144531,
      "memory(GiB)": 378.13,
      "step": 105,
      "token_acc": 0.767438173747622,
      "train_speed(iter/s)": 0.055274
    },
    {
      "epoch": 0.1071863580998782,
      "grad_norm": 0.35161978006362915,
      "learning_rate": 9.91276096484306e-05,
      "loss": 0.553467845916748,
      "memory(GiB)": 378.13,
      "step": 110,
      "token_acc": 0.8268870335661953,
      "train_speed(iter/s)": 0.055276
    },
    {
      "epoch": 0.1120584652862363,
      "grad_norm": 0.412120521068573,
      "learning_rate": 9.897125431259033e-05,
      "loss": 0.634190034866333,
      "memory(GiB)": 378.13,
      "step": 115,
      "token_acc": 0.8068276436303081,
      "train_speed(iter/s)": 0.055265
    },
    {
      "epoch": 0.11693057247259439,
      "grad_norm": 0.458766907453537,
      "learning_rate": 9.880216237248481e-05,
      "loss": 0.5070098400115967,
      "memory(GiB)": 383.55,
      "step": 120,
      "token_acc": 0.8488372093023255,
      "train_speed(iter/s)": 0.055088
    },
    {
      "epoch": 0.1218026796589525,
      "grad_norm": 0.26979780197143555,
      "learning_rate": 9.862037780609986e-05,
      "loss": 0.6117064476013183,
      "memory(GiB)": 383.55,
      "step": 125,
      "token_acc": 0.8204016064257028,
      "train_speed(iter/s)": 0.055201
    },
    {
      "epoch": 0.12667478684531058,
      "grad_norm": 0.33145567774772644,
      "learning_rate": 9.842594789256103e-05,
      "loss": 0.6480350017547607,
      "memory(GiB)": 383.55,
      "step": 130,
      "token_acc": 0.7939520333680917,
      "train_speed(iter/s)": 0.055341
    },
    {
      "epoch": 0.1315468940316687,
      "grad_norm": 0.29335150122642517,
      "learning_rate": 9.821892319983726e-05,
      "loss": 0.6102027893066406,
      "memory(GiB)": 383.55,
      "step": 135,
      "token_acc": 0.8075084115459537,
      "train_speed(iter/s)": 0.055381
    },
    {
      "epoch": 0.1364190012180268,
      "grad_norm": 0.34363335371017456,
      "learning_rate": 9.799935757158891e-05,
      "loss": 0.6652801513671875,
      "memory(GiB)": 383.55,
      "step": 140,
      "token_acc": 0.7967960995995125,
      "train_speed(iter/s)": 0.055397
    },
    {
      "epoch": 0.14129110840438489,
      "grad_norm": 1.3419567346572876,
      "learning_rate": 9.776730811316394e-05,
      "loss": 0.6267284393310547,
      "memory(GiB)": 383.55,
      "step": 145,
      "token_acc": 0.8041536400178652,
      "train_speed(iter/s)": 0.055716
    },
    {
      "epoch": 0.146163215590743,
      "grad_norm": 0.32478609681129456,
      "learning_rate": 9.752283517674575e-05,
      "loss": 0.5990486145019531,
      "memory(GiB)": 383.55,
      "step": 150,
      "token_acc": 0.80878414568827,
      "train_speed(iter/s)": 0.055975
    },
    {
      "epoch": 0.1510353227771011,
      "grad_norm": 0.33393779397010803,
      "learning_rate": 9.72660023456566e-05,
      "loss": 0.6312044143676758,
      "memory(GiB)": 383.55,
      "step": 155,
      "token_acc": 0.8099249502220861,
      "train_speed(iter/s)": 0.055469
    },
    {
      "epoch": 0.1559074299634592,
      "grad_norm": 0.39661872386932373,
      "learning_rate": 9.699687641782067e-05,
      "loss": 0.727474308013916,
      "memory(GiB)": 383.55,
      "step": 160,
      "token_acc": 0.7668711656441718,
      "train_speed(iter/s)": 0.055534
    },
    {
      "epoch": 0.1607795371498173,
      "grad_norm": 0.3174588978290558,
      "learning_rate": 9.671552738839099e-05,
      "loss": 0.7284453868865967,
      "memory(GiB)": 383.55,
      "step": 165,
      "token_acc": 0.7788385043754972,
      "train_speed(iter/s)": 0.055621
    },
    {
      "epoch": 0.1656516443361754,
      "grad_norm": 0.3508811891078949,
      "learning_rate": 9.642202843154491e-05,
      "loss": 0.6260187149047851,
      "memory(GiB)": 383.55,
      "step": 170,
      "token_acc": 0.8036006546644845,
      "train_speed(iter/s)": 0.055841
    },
    {
      "epoch": 0.1705237515225335,
      "grad_norm": 0.35121622681617737,
      "learning_rate": 9.611645588145272e-05,
      "loss": 0.6979084968566894,
      "memory(GiB)": 383.55,
      "step": 175,
      "token_acc": 0.784981684981685,
      "train_speed(iter/s)": 0.055902
    },
    {
      "epoch": 0.1753958587088916,
      "grad_norm": 0.41958293318748474,
      "learning_rate": 9.579888921242439e-05,
      "loss": 0.6360678195953369,
      "memory(GiB)": 383.55,
      "step": 180,
      "token_acc": 0.8010867455850961,
      "train_speed(iter/s)": 0.05597
    },
    {
      "epoch": 0.18026796589524968,
      "grad_norm": 0.4557216763496399,
      "learning_rate": 9.546941101823963e-05,
      "loss": 0.7268210411071777,
      "memory(GiB)": 383.55,
      "step": 185,
      "token_acc": 0.780511811023622,
      "train_speed(iter/s)": 0.056032
    },
    {
      "epoch": 0.1851400730816078,
      "grad_norm": 0.44287464022636414,
      "learning_rate": 9.512810699066667e-05,
      "loss": 0.6450634479522706,
      "memory(GiB)": 383.55,
      "step": 190,
      "token_acc": 0.8003896563939072,
      "train_speed(iter/s)": 0.056127
    },
    {
      "epoch": 0.1900121802679659,
      "grad_norm": 0.2944161593914032,
      "learning_rate": 9.477506589717518e-05,
      "loss": 0.5534649848937988,
      "memory(GiB)": 383.55,
      "step": 195,
      "token_acc": 0.8173982442138866,
      "train_speed(iter/s)": 0.056116
    },
    {
      "epoch": 0.19488428745432398,
      "grad_norm": 0.3743175268173218,
      "learning_rate": 9.441037955784944e-05,
      "loss": 0.7282295227050781,
      "memory(GiB)": 383.55,
      "step": 200,
      "token_acc": 0.7695568400770713,
      "train_speed(iter/s)": 0.05619
    },
    {
      "epoch": 0.19488428745432398,
      "eval_loss": 0.6866188049316406,
      "eval_runtime": 6.0764,
      "eval_samples_per_second": 0.658,
      "eval_steps_per_second": 0.658,
      "step": 200
    },
    {
      "epoch": 0.1997563946406821,
      "grad_norm": 0.397987425327301,
      "learning_rate": 9.403414282150738e-05,
      "loss": 0.6911158561706543,
      "memory(GiB)": 383.55,
      "step": 205,
      "token_acc": 0.7807744462859726,
      "train_speed(iter/s)": 0.055478
    },
    {
      "epoch": 0.2046285018270402,
      "grad_norm": 0.852430522441864,
      "learning_rate": 9.364645354103206e-05,
      "loss": 0.7203257560729981,
      "memory(GiB)": 383.55,
      "step": 210,
      "token_acc": 0.7839163822525598,
      "train_speed(iter/s)": 0.055538
    },
    {
      "epoch": 0.2095006090133983,
      "grad_norm": 0.36566832661628723,
      "learning_rate": 9.324741254792171e-05,
      "loss": 0.5751584529876709,
      "memory(GiB)": 383.55,
      "step": 215,
      "token_acc": 0.8120177310786406,
      "train_speed(iter/s)": 0.055665
    },
    {
      "epoch": 0.2143727161997564,
      "grad_norm": 0.5105158090591431,
      "learning_rate": 9.28371236260652e-05,
      "loss": 0.5958977699279785,
      "memory(GiB)": 383.55,
      "step": 220,
      "token_acc": 0.8228462471832206,
      "train_speed(iter/s)": 0.055807
    },
    {
      "epoch": 0.2192448233861145,
      "grad_norm": 0.48028162121772766,
      "learning_rate": 9.241569348474954e-05,
      "loss": 0.7106984615325928,
      "memory(GiB)": 383.55,
      "step": 225,
      "token_acc": 0.7828740844087897,
      "train_speed(iter/s)": 0.055858
    },
    {
      "epoch": 0.2241169305724726,
      "grad_norm": 0.32592424750328064,
      "learning_rate": 9.198323173090663e-05,
      "loss": 0.5898131847381591,
      "memory(GiB)": 383.55,
      "step": 230,
      "token_acc": 0.8189450340567084,
      "train_speed(iter/s)": 0.055995
    },
    {
      "epoch": 0.2289890377588307,
      "grad_norm": 0.44794151186943054,
      "learning_rate": 9.153985084060623e-05,
      "loss": 0.6042355060577392,
      "memory(GiB)": 383.55,
      "step": 235,
      "token_acc": 0.810122224134963,
      "train_speed(iter/s)": 0.056057
    },
    {
      "epoch": 0.23386114494518878,
      "grad_norm": 0.3204025328159332,
      "learning_rate": 9.108566612980298e-05,
      "loss": 0.5558523654937744,
      "memory(GiB)": 383.55,
      "step": 240,
      "token_acc": 0.8260869565217391,
      "train_speed(iter/s)": 0.056072
    },
    {
      "epoch": 0.2387332521315469,
      "grad_norm": 0.31540507078170776,
      "learning_rate": 9.062079572434448e-05,
      "loss": 0.6237210273742676,
      "memory(GiB)": 383.55,
      "step": 245,
      "token_acc": 0.8021445866482186,
      "train_speed(iter/s)": 0.056086
    },
    {
      "epoch": 0.243605359317905,
      "grad_norm": 0.619088888168335,
      "learning_rate": 9.014536052924883e-05,
      "loss": 0.664583158493042,
      "memory(GiB)": 383.55,
      "step": 250,
      "token_acc": 0.793002915451895,
      "train_speed(iter/s)": 0.056116
    },
    {
      "epoch": 0.24847746650426308,
      "grad_norm": 0.6715230345726013,
      "learning_rate": 8.965948419725922e-05,
      "loss": 0.5711063861846923,
      "memory(GiB)": 383.55,
      "step": 255,
      "token_acc": 0.8185620394343757,
      "train_speed(iter/s)": 0.055175
    },
    {
      "epoch": 0.25334957369062117,
      "grad_norm": 0.4514237642288208,
      "learning_rate": 8.916329309668397e-05,
      "loss": 0.721324348449707,
      "memory(GiB)": 383.55,
      "step": 260,
      "token_acc": 0.7792865828942035,
      "train_speed(iter/s)": 0.055266
    },
    {
      "epoch": 0.2582216808769793,
      "grad_norm": 0.5026947855949402,
      "learning_rate": 8.865691627853013e-05,
      "loss": 0.6661148548126221,
      "memory(GiB)": 383.55,
      "step": 265,
      "token_acc": 0.7951268025857782,
      "train_speed(iter/s)": 0.05533
    },
    {
      "epoch": 0.2630937880633374,
      "grad_norm": 0.3138331174850464,
      "learning_rate": 8.814048544293965e-05,
      "loss": 0.6717385292053223,
      "memory(GiB)": 383.55,
      "step": 270,
      "token_acc": 0.7904462355022607,
      "train_speed(iter/s)": 0.055296
    },
    {
      "epoch": 0.2679658952496955,
      "grad_norm": 0.3270625174045563,
      "learning_rate": 8.76141349049362e-05,
      "loss": 0.6027359008789063,
      "memory(GiB)": 383.55,
      "step": 275,
      "token_acc": 0.8082101806239738,
      "train_speed(iter/s)": 0.05525
    },
    {
      "epoch": 0.2728380024360536,
      "grad_norm": 0.4341810941696167,
      "learning_rate": 8.707800155949217e-05,
      "loss": 0.6553579330444336,
      "memory(GiB)": 383.55,
      "step": 280,
      "token_acc": 0.797032640949555,
      "train_speed(iter/s)": 0.055271
    },
    {
      "epoch": 0.2777101096224117,
      "grad_norm": 0.37805306911468506,
      "learning_rate": 8.653222484592458e-05,
      "loss": 0.6515018463134765,
      "memory(GiB)": 383.55,
      "step": 285,
      "token_acc": 0.794751477233229,
      "train_speed(iter/s)": 0.05524
    },
    {
      "epoch": 0.28258221680876977,
      "grad_norm": 0.38902854919433594,
      "learning_rate": 8.597694671162921e-05,
      "loss": 0.592349624633789,
      "memory(GiB)": 383.55,
      "step": 290,
      "token_acc": 0.815828677839851,
      "train_speed(iter/s)": 0.05519
    },
    {
      "epoch": 0.2874543239951279,
      "grad_norm": 0.3007030487060547,
      "learning_rate": 8.541231157516247e-05,
      "loss": 0.6616343021392822,
      "memory(GiB)": 383.55,
      "step": 295,
      "token_acc": 0.7961879284400601,
      "train_speed(iter/s)": 0.05519
    },
    {
      "epoch": 0.292326431181486,
      "grad_norm": 0.43431806564331055,
      "learning_rate": 8.483846628868055e-05,
      "loss": 0.6408910751342773,
      "memory(GiB)": 383.55,
      "step": 300,
      "token_acc": 0.7999295526593871,
      "train_speed(iter/s)": 0.055286
    },
    {
      "epoch": 0.292326431181486,
      "eval_loss": 0.6525390148162842,
      "eval_runtime": 6.2823,
      "eval_samples_per_second": 0.637,
      "eval_steps_per_second": 0.637,
      "step": 300
    },
    {
      "epoch": 0.2971985383678441,
      "grad_norm": 0.4932222068309784,
      "learning_rate": 8.425556009974566e-05,
      "loss": 0.6335715770721435,
      "memory(GiB)": 383.55,
      "step": 305,
      "token_acc": 0.8036400066789113,
      "train_speed(iter/s)": 0.054583
    },
    {
      "epoch": 0.3020706455542022,
      "grad_norm": 0.27842646837234497,
      "learning_rate": 8.366374461250916e-05,
      "loss": 0.570946216583252,
      "memory(GiB)": 383.55,
      "step": 310,
      "token_acc": 0.8238350381555447,
      "train_speed(iter/s)": 0.054659
    },
    {
      "epoch": 0.30694275274056027,
      "grad_norm": 0.7104659080505371,
      "learning_rate": 8.306317374828194e-05,
      "loss": 0.566010570526123,
      "memory(GiB)": 383.55,
      "step": 315,
      "token_acc": 0.8189669219488349,
      "train_speed(iter/s)": 0.054662
    },
    {
      "epoch": 0.3118148599269184,
      "grad_norm": 0.8684744834899902,
      "learning_rate": 8.245400370550198e-05,
      "loss": 0.677960729598999,
      "memory(GiB)": 383.55,
      "step": 320,
      "token_acc": 0.7772163527790538,
      "train_speed(iter/s)": 0.054794
    },
    {
      "epoch": 0.3166869671132765,
      "grad_norm": 0.3846539258956909,
      "learning_rate": 8.183639291910987e-05,
      "loss": 0.5622167587280273,
      "memory(GiB)": 383.55,
      "step": 325,
      "token_acc": 0.830480089318943,
      "train_speed(iter/s)": 0.054821
    },
    {
      "epoch": 0.3215590742996346,
      "grad_norm": 0.34010785818099976,
      "learning_rate": 8.121050201934235e-05,
      "loss": 0.5877705574035644,
      "memory(GiB)": 383.55,
      "step": 330,
      "token_acc": 0.8287964389659305,
      "train_speed(iter/s)": 0.054899
    },
    {
      "epoch": 0.3264311814859927,
      "grad_norm": 0.3751339912414551,
      "learning_rate": 8.057649378995526e-05,
      "loss": 0.5179604053497314,
      "memory(GiB)": 383.55,
      "step": 335,
      "token_acc": 0.8402439024390244,
      "train_speed(iter/s)": 0.054839
    },
    {
      "epoch": 0.3313032886723508,
      "grad_norm": 0.3137739896774292,
      "learning_rate": 7.993453312588607e-05,
      "loss": 0.5339327335357666,
      "memory(GiB)": 383.55,
      "step": 340,
      "token_acc": 0.8365357839042049,
      "train_speed(iter/s)": 0.054764
    },
    {
      "epoch": 0.33617539585870887,
      "grad_norm": 0.5746834874153137,
      "learning_rate": 7.928478699036755e-05,
      "loss": 0.6346034049987793,
      "memory(GiB)": 383.55,
      "step": 345,
      "token_acc": 0.7972016183412003,
      "train_speed(iter/s)": 0.054713
    },
    {
      "epoch": 0.341047503045067,
      "grad_norm": 0.3580325245857239,
      "learning_rate": 7.862742437150336e-05,
      "loss": 0.6608481884002686,
      "memory(GiB)": 383.55,
      "step": 350,
      "token_acc": 0.7929736511919699,
      "train_speed(iter/s)": 0.054762
    },
    {
      "epoch": 0.3459196102314251,
      "grad_norm": 0.4622519612312317,
      "learning_rate": 7.796261623831713e-05,
      "loss": 0.562419080734253,
      "memory(GiB)": 383.55,
      "step": 355,
      "token_acc": 0.8190336211647988,
      "train_speed(iter/s)": 0.054396
    },
    {
      "epoch": 0.3507917174177832,
      "grad_norm": 0.5616739392280579,
      "learning_rate": 7.729053549628622e-05,
      "loss": 0.5495719909667969,
      "memory(GiB)": 383.55,
      "step": 360,
      "token_acc": 0.8339377743844245,
      "train_speed(iter/s)": 0.054442
    },
    {
      "epoch": 0.3556638246041413,
      "grad_norm": 0.7364129424095154,
      "learning_rate": 7.661135694237198e-05,
      "loss": 0.4548810958862305,
      "memory(GiB)": 387.42,
      "step": 365,
      "token_acc": 0.8370827285921626,
      "train_speed(iter/s)": 0.054383
    },
    {
      "epoch": 0.36053593179049936,
      "grad_norm": 0.44831952452659607,
      "learning_rate": 7.592525721955786e-05,
      "loss": 0.5882142066955567,
      "memory(GiB)": 387.42,
      "step": 370,
      "token_acc": 0.8161894662424886,
      "train_speed(iter/s)": 0.054337
    },
    {
      "epoch": 0.3654080389768575,
      "grad_norm": 0.37750759720802307,
      "learning_rate": 7.523241477090763e-05,
      "loss": 0.6884512901306152,
      "memory(GiB)": 387.42,
      "step": 375,
      "token_acc": 0.7952127659574468,
      "train_speed(iter/s)": 0.054385
    },
    {
      "epoch": 0.3702801461632156,
      "grad_norm": 0.5074845552444458,
      "learning_rate": 7.45330097931553e-05,
      "loss": 0.5458427906036377,
      "memory(GiB)": 387.42,
      "step": 380,
      "token_acc": 0.8217197924388436,
      "train_speed(iter/s)": 0.054354
    },
    {
      "epoch": 0.3751522533495737,
      "grad_norm": 0.6083484292030334,
      "learning_rate": 7.382722418983892e-05,
      "loss": 0.5680232048034668,
      "memory(GiB)": 387.42,
      "step": 385,
      "token_acc": 0.8248374239563667,
      "train_speed(iter/s)": 0.054329
    },
    {
      "epoch": 0.3800243605359318,
      "grad_norm": 0.39138278365135193,
      "learning_rate": 7.311524152399054e-05,
      "loss": 0.7077183246612548,
      "memory(GiB)": 387.42,
      "step": 390,
      "token_acc": 0.7912014292094686,
      "train_speed(iter/s)": 0.054329
    },
    {
      "epoch": 0.3848964677222899,
      "grad_norm": 0.4244479238986969,
      "learning_rate": 7.239724697039457e-05,
      "loss": 0.6999778270721435,
      "memory(GiB)": 387.42,
      "step": 395,
      "token_acc": 0.7828650029475339,
      "train_speed(iter/s)": 0.054413
    },
    {
      "epoch": 0.38976857490864797,
      "grad_norm": 0.3658107817173004,
      "learning_rate": 7.167342726742685e-05,
      "loss": 0.5321448802947998,
      "memory(GiB)": 387.42,
      "step": 400,
      "token_acc": 0.8257604205782951,
      "train_speed(iter/s)": 0.054414
    },
    {
      "epoch": 0.38976857490864797,
      "eval_loss": 0.647614598274231,
      "eval_runtime": 6.1299,
      "eval_samples_per_second": 0.653,
      "eval_steps_per_second": 0.653,
      "step": 400
    },
    {
      "epoch": 0.3946406820950061,
      "grad_norm": 0.4579378068447113,
      "learning_rate": 7.094397066848716e-05,
      "loss": 0.6339591979980469,
      "memory(GiB)": 387.42,
      "step": 405,
      "token_acc": 0.7953757225433526,
      "train_speed(iter/s)": 0.054198
    },
    {
      "epoch": 0.3995127892813642,
      "grad_norm": 0.41108816862106323,
      "learning_rate": 7.020906689303766e-05,
      "loss": 0.6498037338256836,
      "memory(GiB)": 387.42,
      "step": 410,
      "token_acc": 0.8013311819281969,
      "train_speed(iter/s)": 0.054274
    },
    {
      "epoch": 0.4043848964677223,
      "grad_norm": 0.3730790615081787,
      "learning_rate": 6.946890707726004e-05,
      "loss": 0.6224189281463623,
      "memory(GiB)": 387.42,
      "step": 415,
      "token_acc": 0.8109767441860465,
      "train_speed(iter/s)": 0.054342
    },
    {
      "epoch": 0.4092570036540804,
      "grad_norm": 0.41862693428993225,
      "learning_rate": 6.872368372434416e-05,
      "loss": 0.6285569190979003,
      "memory(GiB)": 387.42,
      "step": 420,
      "token_acc": 0.793915399041467,
      "train_speed(iter/s)": 0.054335
    },
    {
      "epoch": 0.41412911084043846,
      "grad_norm": 0.4861293435096741,
      "learning_rate": 6.797359065442117e-05,
      "loss": 0.5771468162536622,
      "memory(GiB)": 387.42,
      "step": 425,
      "token_acc": 0.8196579720158922,
      "train_speed(iter/s)": 0.054339
    },
    {
      "epoch": 0.4190012180267966,
      "grad_norm": 0.30941805243492126,
      "learning_rate": 6.721882295415425e-05,
      "loss": 0.5844586372375489,
      "memory(GiB)": 387.42,
      "step": 430,
      "token_acc": 0.814694173000362,
      "train_speed(iter/s)": 0.05432
    },
    {
      "epoch": 0.4238733252131547,
      "grad_norm": 0.3820112645626068,
      "learning_rate": 6.645957692599969e-05,
      "loss": 0.5823289394378662,
      "memory(GiB)": 387.42,
      "step": 435,
      "token_acc": 0.8027565654684299,
      "train_speed(iter/s)": 0.054382
    },
    {
      "epoch": 0.4287454323995128,
      "grad_norm": 0.3910198509693146,
      "learning_rate": 6.569605003715201e-05,
      "loss": 0.561509084701538,
      "memory(GiB)": 387.42,
      "step": 440,
      "token_acc": 0.8264751552795031,
      "train_speed(iter/s)": 0.054462
    },
    {
      "epoch": 0.4336175395858709,
      "grad_norm": 0.3805302381515503,
      "learning_rate": 6.492844086818599e-05,
      "loss": 0.558375883102417,
      "memory(GiB)": 387.42,
      "step": 445,
      "token_acc": 0.8262056414922657,
      "train_speed(iter/s)": 0.05444
    },
    {
      "epoch": 0.438489646772229,
      "grad_norm": 0.6036235690116882,
      "learning_rate": 6.41569490614092e-05,
      "loss": 0.6268420696258545,
      "memory(GiB)": 387.42,
      "step": 450,
      "token_acc": 0.8061224489795918,
      "train_speed(iter/s)": 0.054446
    },
    {
      "epoch": 0.44336175395858707,
      "grad_norm": 0.4275857210159302,
      "learning_rate": 6.338177526893836e-05,
      "loss": 0.5441042423248291,
      "memory(GiB)": 387.42,
      "step": 455,
      "token_acc": 0.8360881542699724,
      "train_speed(iter/s)": 0.05418
    },
    {
      "epoch": 0.4482338611449452,
      "grad_norm": 0.4830683469772339,
      "learning_rate": 6.260312110051312e-05,
      "loss": 0.606513261795044,
      "memory(GiB)": 387.42,
      "step": 460,
      "token_acc": 0.8049238864875023,
      "train_speed(iter/s)": 0.054224
    },
    {
      "epoch": 0.4531059683313033,
      "grad_norm": 0.35629284381866455,
      "learning_rate": 6.182118907106068e-05,
      "loss": 0.538546371459961,
      "memory(GiB)": 387.42,
      "step": 465,
      "token_acc": 0.8373831775700935,
      "train_speed(iter/s)": 0.054204
    },
    {
      "epoch": 0.4579780755176614,
      "grad_norm": 0.46749940514564514,
      "learning_rate": 6.103618254802511e-05,
      "loss": 0.5923898696899415,
      "memory(GiB)": 387.42,
      "step": 470,
      "token_acc": 0.8042936553574851,
      "train_speed(iter/s)": 0.054261
    },
    {
      "epoch": 0.4628501827040195,
      "grad_norm": 0.6278035044670105,
      "learning_rate": 6.024830569847477e-05,
      "loss": 0.5971939086914062,
      "memory(GiB)": 387.42,
      "step": 475,
      "token_acc": 0.8176121372031663,
      "train_speed(iter/s)": 0.054245
    },
    {
      "epoch": 0.46772228989037756,
      "grad_norm": 0.3572694957256317,
      "learning_rate": 5.945776343600207e-05,
      "loss": 0.5843085765838623,
      "memory(GiB)": 387.42,
      "step": 480,
      "token_acc": 0.8212882953652789,
      "train_speed(iter/s)": 0.054246
    },
    {
      "epoch": 0.4725943970767357,
      "grad_norm": 0.5189170241355896,
      "learning_rate": 5.866476136742862e-05,
      "loss": 0.5234210968017579,
      "memory(GiB)": 387.42,
      "step": 485,
      "token_acc": 0.8463819691577699,
      "train_speed(iter/s)": 0.05426
    },
    {
      "epoch": 0.4774665042630938,
      "grad_norm": 0.41832658648490906,
      "learning_rate": 5.7869505739330546e-05,
      "loss": 0.6695927619934082,
      "memory(GiB)": 387.42,
      "step": 490,
      "token_acc": 0.7924812030075188,
      "train_speed(iter/s)": 0.05433
    },
    {
      "epoch": 0.4823386114494519,
      "grad_norm": 4.011805534362793,
      "learning_rate": 5.7072203384397064e-05,
      "loss": 0.5814547538757324,
      "memory(GiB)": 387.42,
      "step": 495,
      "token_acc": 0.8110627719080175,
      "train_speed(iter/s)": 0.054376
    },
    {
      "epoch": 0.48721071863581,
      "grad_norm": 0.31671130657196045,
      "learning_rate": 5.627306166763684e-05,
      "loss": 0.5855265617370605,
      "memory(GiB)": 387.42,
      "step": 500,
      "token_acc": 0.8094142629623076,
      "train_speed(iter/s)": 0.054362
    },
    {
      "epoch": 0.48721071863581,
      "eval_loss": 0.6302051544189453,
      "eval_runtime": 6.1545,
      "eval_samples_per_second": 0.65,
      "eval_steps_per_second": 0.65,
      "step": 500
    },
    {
      "epoch": 0.4920828258221681,
      "grad_norm": 0.3875284194946289,
      "learning_rate": 5.5472288432445774e-05,
      "loss": 0.59937744140625,
      "memory(GiB)": 387.42,
      "step": 505,
      "token_acc": 0.7988918837975442,
      "train_speed(iter/s)": 0.05424
    },
    {
      "epoch": 0.49695493300852617,
      "grad_norm": 0.4411413371562958,
      "learning_rate": 5.467009194655045e-05,
      "loss": 0.5820174217224121,
      "memory(GiB)": 387.42,
      "step": 510,
      "token_acc": 0.8234812510234157,
      "train_speed(iter/s)": 0.054197
    },
    {
      "epoch": 0.5018270401948843,
      "grad_norm": 0.5111451148986816,
      "learning_rate": 5.386668084784112e-05,
      "loss": 0.5154130935668946,
      "memory(GiB)": 387.42,
      "step": 515,
      "token_acc": 0.8397686998694274,
      "train_speed(iter/s)": 0.05426
    },
    {
      "epoch": 0.5066991473812423,
      "grad_norm": 0.29832109808921814,
      "learning_rate": 5.306226409010855e-05,
      "loss": 0.5672587394714356,
      "memory(GiB)": 387.42,
      "step": 520,
      "token_acc": 0.8263521756811713,
      "train_speed(iter/s)": 0.054274
    },
    {
      "epoch": 0.5115712545676004,
      "grad_norm": 0.42139527201652527,
      "learning_rate": 5.22570508886986e-05,
      "loss": 0.5327470302581787,
      "memory(GiB)": 387.42,
      "step": 525,
      "token_acc": 0.8310478199718706,
      "train_speed(iter/s)": 0.054332
    },
    {
      "epoch": 0.5164433617539586,
      "grad_norm": 0.34750285744667053,
      "learning_rate": 5.145125066609877e-05,
      "loss": 0.61210618019104,
      "memory(GiB)": 387.42,
      "step": 530,
      "token_acc": 0.8104413702239789,
      "train_speed(iter/s)": 0.054325
    },
    {
      "epoch": 0.5213154689403167,
      "grad_norm": 0.5557289123535156,
      "learning_rate": 5.0645072997471e-05,
      "loss": 0.5486731052398681,
      "memory(GiB)": 387.42,
      "step": 535,
      "token_acc": 0.8223992502343018,
      "train_speed(iter/s)": 0.054295
    },
    {
      "epoch": 0.5261875761266748,
      "grad_norm": 1.370209813117981,
      "learning_rate": 4.983872755614461e-05,
      "loss": 0.6499679565429688,
      "memory(GiB)": 387.42,
      "step": 540,
      "token_acc": 0.7975866095757104,
      "train_speed(iter/s)": 0.054348
    },
    {
      "epoch": 0.5310596833130329,
      "grad_norm": 0.4371365010738373,
      "learning_rate": 4.9032424059083774e-05,
      "loss": 0.43409147262573244,
      "memory(GiB)": 387.42,
      "step": 545,
      "token_acc": 0.8684942391736193,
      "train_speed(iter/s)": 0.054321
    },
    {
      "epoch": 0.535931790499391,
      "grad_norm": 0.4735865890979767,
      "learning_rate": 4.8226372212343726e-05,
      "loss": 0.5776564598083496,
      "memory(GiB)": 387.42,
      "step": 550,
      "token_acc": 0.8255653883972468,
      "train_speed(iter/s)": 0.054368
    },
    {
      "epoch": 0.5408038976857491,
      "grad_norm": 0.6005700826644897,
      "learning_rate": 4.742078165652958e-05,
      "loss": 0.5744057178497315,
      "memory(GiB)": 387.42,
      "step": 555,
      "token_acc": 0.8105436573311368,
      "train_speed(iter/s)": 0.054325
    },
    {
      "epoch": 0.5456760048721072,
      "grad_norm": 0.4128513038158417,
      "learning_rate": 4.661586191227247e-05,
      "loss": 0.5321125030517578,
      "memory(GiB)": 387.42,
      "step": 560,
      "token_acc": 0.8245080500894454,
      "train_speed(iter/s)": 0.054305
    },
    {
      "epoch": 0.5505481120584653,
      "grad_norm": 0.4688722491264343,
      "learning_rate": 4.581182232573658e-05,
      "loss": 0.5235236167907715,
      "memory(GiB)": 387.42,
      "step": 565,
      "token_acc": 0.8205183122724352,
      "train_speed(iter/s)": 0.054352
    },
    {
      "epoch": 0.5554202192448234,
      "grad_norm": 0.4604549705982208,
      "learning_rate": 4.500887201417187e-05,
      "loss": 0.6571295261383057,
      "memory(GiB)": 387.42,
      "step": 570,
      "token_acc": 0.8019607843137255,
      "train_speed(iter/s)": 0.054361
    },
    {
      "epoch": 0.5602923264311814,
      "grad_norm": 0.48336780071258545,
      "learning_rate": 4.4207219811526056e-05,
      "loss": 0.5963138580322266,
      "memory(GiB)": 387.42,
      "step": 575,
      "token_acc": 0.8077416987708678,
      "train_speed(iter/s)": 0.054409
    },
    {
      "epoch": 0.5651644336175395,
      "grad_norm": 0.5700681805610657,
      "learning_rate": 4.3407074214130446e-05,
      "loss": 0.6309503555297852,
      "memory(GiB)": 387.42,
      "step": 580,
      "token_acc": 0.7960770454143842,
      "train_speed(iter/s)": 0.054412
    },
    {
      "epoch": 0.5700365408038977,
      "grad_norm": 0.40493443608283997,
      "learning_rate": 4.2608643326473496e-05,
      "loss": 0.5265829563140869,
      "memory(GiB)": 387.42,
      "step": 585,
      "token_acc": 0.8364477970169724,
      "train_speed(iter/s)": 0.054419
    },
    {
      "epoch": 0.5749086479902558,
      "grad_norm": 0.42441654205322266,
      "learning_rate": 4.181213480707637e-05,
      "loss": 0.5463868618011475,
      "memory(GiB)": 387.42,
      "step": 590,
      "token_acc": 0.8250831178426302,
      "train_speed(iter/s)": 0.054415
    },
    {
      "epoch": 0.5797807551766139,
      "grad_norm": 0.5273870825767517,
      "learning_rate": 4.1017755814484374e-05,
      "loss": 0.6219929218292236,
      "memory(GiB)": 387.42,
      "step": 595,
      "token_acc": 0.8101965601965602,
      "train_speed(iter/s)": 0.054492
    },
    {
      "epoch": 0.584652862362972,
      "grad_norm": 0.5027340650558472,
      "learning_rate": 4.0225712953388494e-05,
      "loss": 0.47921223640441896,
      "memory(GiB)": 387.42,
      "step": 600,
      "token_acc": 0.8507462686567164,
      "train_speed(iter/s)": 0.054456
    },
    {
      "epoch": 0.584652862362972,
      "eval_loss": 0.5931864976882935,
      "eval_runtime": 6.2202,
      "eval_samples_per_second": 0.643,
      "eval_steps_per_second": 0.643,
      "step": 600
    },
    {
      "epoch": 0.5895249695493301,
      "grad_norm": 0.7974056005477905,
      "learning_rate": 3.943621222089102e-05,
      "loss": 0.5052922248840332,
      "memory(GiB)": 387.42,
      "step": 605,
      "token_acc": 0.8312937062937062,
      "train_speed(iter/s)": 0.054258
    },
    {
      "epoch": 0.5943970767356882,
      "grad_norm": 0.38420093059539795,
      "learning_rate": 3.864945895292908e-05,
      "loss": 0.5411774635314941,
      "memory(GiB)": 387.42,
      "step": 610,
      "token_acc": 0.8309124767225325,
      "train_speed(iter/s)": 0.054201
    },
    {
      "epoch": 0.5992691839220463,
      "grad_norm": 0.9411633014678955,
      "learning_rate": 3.786565777087022e-05,
      "loss": 0.6929959297180176,
      "memory(GiB)": 387.42,
      "step": 615,
      "token_acc": 0.7847842261904762,
      "train_speed(iter/s)": 0.05425
    },
    {
      "epoch": 0.6041412911084044,
      "grad_norm": 0.35226595401763916,
      "learning_rate": 3.708501252829386e-05,
      "loss": 0.5966301918029785,
      "memory(GiB)": 387.42,
      "step": 620,
      "token_acc": 0.8161076443057722,
      "train_speed(iter/s)": 0.054233
    },
    {
      "epoch": 0.6090133982947625,
      "grad_norm": 0.4208815097808838,
      "learning_rate": 3.6307726257972255e-05,
      "loss": 0.5394818782806396,
      "memory(GiB)": 387.42,
      "step": 625,
      "token_acc": 0.8257628294036061,
      "train_speed(iter/s)": 0.054209
    },
    {
      "epoch": 0.6138855054811205,
      "grad_norm": 0.445925772190094,
      "learning_rate": 3.553400111906523e-05,
      "loss": 0.6164620399475098,
      "memory(GiB)": 387.42,
      "step": 630,
      "token_acc": 0.8090881366270204,
      "train_speed(iter/s)": 0.054222
    },
    {
      "epoch": 0.6187576126674786,
      "grad_norm": 0.5922476649284363,
      "learning_rate": 3.476403834454183e-05,
      "loss": 0.5115623474121094,
      "memory(GiB)": 387.42,
      "step": 635,
      "token_acc": 0.8346325167037862,
      "train_speed(iter/s)": 0.054244
    },
    {
      "epoch": 0.6236297198538368,
      "grad_norm": 0.5026776790618896,
      "learning_rate": 3.399803818884311e-05,
      "loss": 0.5328683853149414,
      "memory(GiB)": 387.42,
      "step": 640,
      "token_acc": 0.8462420173571311,
      "train_speed(iter/s)": 0.054264
    },
    {
      "epoch": 0.6285018270401949,
      "grad_norm": 0.45468801259994507,
      "learning_rate": 3.323619987579914e-05,
      "loss": 0.6177504062652588,
      "memory(GiB)": 387.42,
      "step": 645,
      "token_acc": 0.80891932520461,
      "train_speed(iter/s)": 0.054261
    },
    {
      "epoch": 0.633373934226553,
      "grad_norm": 0.6319808959960938,
      "learning_rate": 3.247872154681439e-05,
      "loss": 0.5958673000335694,
      "memory(GiB)": 387.42,
      "step": 650,
      "token_acc": 0.8096597145993414,
      "train_speed(iter/s)": 0.054221
    },
    {
      "epoch": 0.6382460414129111,
      "grad_norm": 0.4812871217727661,
      "learning_rate": 3.172580020933442e-05,
      "loss": 0.5768674850463867,
      "memory(GiB)": 387.42,
      "step": 655,
      "token_acc": 0.8165027102991367,
      "train_speed(iter/s)": 0.054185
    },
    {
      "epoch": 0.6431181485992692,
      "grad_norm": 0.9395345449447632,
      "learning_rate": 3.097763168560741e-05,
      "loss": 0.674397611618042,
      "memory(GiB)": 387.42,
      "step": 660,
      "token_acc": 0.7806563039723662,
      "train_speed(iter/s)": 0.054211
    },
    {
      "epoch": 0.6479902557856273,
      "grad_norm": 0.5097836852073669,
      "learning_rate": 3.0234410561754257e-05,
      "loss": 0.5154216766357422,
      "memory(GiB)": 387.42,
      "step": 665,
      "token_acc": 0.8327868852459016,
      "train_speed(iter/s)": 0.054197
    },
    {
      "epoch": 0.6528623629719854,
      "grad_norm": 0.3545515239238739,
      "learning_rate": 2.949633013715982e-05,
      "loss": 0.5994223117828369,
      "memory(GiB)": 387.42,
      "step": 670,
      "token_acc": 0.8076275080410477,
      "train_speed(iter/s)": 0.054247
    },
    {
      "epoch": 0.6577344701583435,
      "grad_norm": 0.9892140030860901,
      "learning_rate": 2.8763582374199126e-05,
      "loss": 0.5891304969787597,
      "memory(GiB)": 387.42,
      "step": 675,
      "token_acc": 0.8036573628488932,
      "train_speed(iter/s)": 0.054243
    },
    {
      "epoch": 0.6626065773447016,
      "grad_norm": 0.5605654716491699,
      "learning_rate": 2.8036357848311012e-05,
      "loss": 0.5478427410125732,
      "memory(GiB)": 387.42,
      "step": 680,
      "token_acc": 0.8287547623821937,
      "train_speed(iter/s)": 0.054281
    },
    {
      "epoch": 0.6674786845310596,
      "grad_norm": 0.4100501239299774,
      "learning_rate": 2.7314845698432805e-05,
      "loss": 0.6083401203155517,
      "memory(GiB)": 387.42,
      "step": 685,
      "token_acc": 0.7989271180170181,
      "train_speed(iter/s)": 0.054288
    },
    {
      "epoch": 0.6723507917174177,
      "grad_norm": 0.4639231562614441,
      "learning_rate": 2.659923357780828e-05,
      "loss": 0.5717390060424805,
      "memory(GiB)": 387.42,
      "step": 690,
      "token_acc": 0.8201791448369106,
      "train_speed(iter/s)": 0.054301
    },
    {
      "epoch": 0.6772228989037758,
      "grad_norm": 0.30558013916015625,
      "learning_rate": 2.5889707605182347e-05,
      "loss": 0.4964598178863525,
      "memory(GiB)": 387.42,
      "step": 695,
      "token_acc": 0.8518634024637455,
      "train_speed(iter/s)": 0.054314
    },
    {
      "epoch": 0.682095006090134,
      "grad_norm": 0.490887314081192,
      "learning_rate": 2.518645231639457e-05,
      "loss": 0.6779924392700195,
      "memory(GiB)": 387.42,
      "step": 700,
      "token_acc": 0.7798953662182362,
      "train_speed(iter/s)": 0.054375
    },
    {
      "epoch": 0.682095006090134,
      "eval_loss": 0.587890625,
      "eval_runtime": 6.016,
      "eval_samples_per_second": 0.665,
      "eval_steps_per_second": 0.665,
      "step": 700
    },
    {
      "epoch": 0.6869671132764921,
      "grad_norm": 0.9540379047393799,
      "learning_rate": 2.4489650616384507e-05,
      "loss": 0.5919107437133789,
      "memory(GiB)": 387.42,
      "step": 705,
      "token_acc": 0.8063427800269906,
      "train_speed(iter/s)": 0.054286
    },
    {
      "epoch": 0.6918392204628502,
      "grad_norm": 0.4385371208190918,
      "learning_rate": 2.3799483731621237e-05,
      "loss": 0.5554671287536621,
      "memory(GiB)": 387.42,
      "step": 710,
      "token_acc": 0.8227891742802965,
      "train_speed(iter/s)": 0.054309
    },
    {
      "epoch": 0.6967113276492083,
      "grad_norm": 0.37225764989852905,
      "learning_rate": 2.311613116296929e-05,
      "loss": 0.5223379611968995,
      "memory(GiB)": 387.42,
      "step": 715,
      "token_acc": 0.8422697368421053,
      "train_speed(iter/s)": 0.054303
    },
    {
      "epoch": 0.7015834348355664,
      "grad_norm": 0.6227976083755493,
      "learning_rate": 2.2439770639003627e-05,
      "loss": 0.5609029769897461,
      "memory(GiB)": 387.42,
      "step": 720,
      "token_acc": 0.8244803695150116,
      "train_speed(iter/s)": 0.054309
    },
    {
      "epoch": 0.7064555420219245,
      "grad_norm": 0.4218509793281555,
      "learning_rate": 2.177057806978522e-05,
      "loss": 0.5789398193359375,
      "memory(GiB)": 387.42,
      "step": 725,
      "token_acc": 0.8195275590551181,
      "train_speed(iter/s)": 0.054317
    },
    {
      "epoch": 0.7113276492082826,
      "grad_norm": 0.5081908106803894,
      "learning_rate": 2.110872750110996e-05,
      "loss": 0.49318413734436034,
      "memory(GiB)": 387.42,
      "step": 730,
      "token_acc": 0.8306063522617901,
      "train_speed(iter/s)": 0.05436
    },
    {
      "epoch": 0.7161997563946407,
      "grad_norm": 0.6738778352737427,
      "learning_rate": 2.045439106924217e-05,
      "loss": 0.55146803855896,
      "memory(GiB)": 387.42,
      "step": 735,
      "token_acc": 0.8200392927308447,
      "train_speed(iter/s)": 0.054367
    },
    {
      "epoch": 0.7210718635809987,
      "grad_norm": 0.43147921562194824,
      "learning_rate": 1.980773895614481e-05,
      "loss": 0.574643898010254,
      "memory(GiB)": 387.42,
      "step": 740,
      "token_acc": 0.8172221384406575,
      "train_speed(iter/s)": 0.054386
    },
    {
      "epoch": 0.7259439707673568,
      "grad_norm": 0.5750350952148438,
      "learning_rate": 1.9168939345218095e-05,
      "loss": 0.5682173728942871,
      "memory(GiB)": 387.42,
      "step": 745,
      "token_acc": 0.8214421252371916,
      "train_speed(iter/s)": 0.054395
    },
    {
      "epoch": 0.730816077953715,
      "grad_norm": 0.461907297372818,
      "learning_rate": 1.8538158377557702e-05,
      "loss": 0.5272111415863037,
      "memory(GiB)": 387.42,
      "step": 750,
      "token_acc": 0.8257032542746828,
      "train_speed(iter/s)": 0.054421
    },
    {
      "epoch": 0.7356881851400731,
      "grad_norm": 0.794235348701477,
      "learning_rate": 1.791556010874434e-05,
      "loss": 0.6292970180511475,
      "memory(GiB)": 387.42,
      "step": 755,
      "token_acc": 0.810012836970475,
      "train_speed(iter/s)": 0.054353
    },
    {
      "epoch": 0.7405602923264312,
      "grad_norm": 0.6189777851104736,
      "learning_rate": 1.7301306466175533e-05,
      "loss": 0.5557656288146973,
      "memory(GiB)": 387.42,
      "step": 760,
      "token_acc": 0.8259242957746479,
      "train_speed(iter/s)": 0.054349
    },
    {
      "epoch": 0.7454323995127893,
      "grad_norm": 0.4845249056816101,
      "learning_rate": 1.6695557206951144e-05,
      "loss": 0.49696760177612304,
      "memory(GiB)": 389.68,
      "step": 765,
      "token_acc": 0.8422638261243813,
      "train_speed(iter/s)": 0.054323
    },
    {
      "epoch": 0.7503045066991474,
      "grad_norm": 0.4710843563079834,
      "learning_rate": 1.6098469876323093e-05,
      "loss": 0.47034273147583006,
      "memory(GiB)": 389.68,
      "step": 770,
      "token_acc": 0.8487571701720842,
      "train_speed(iter/s)": 0.05434
    },
    {
      "epoch": 0.7551766138855055,
      "grad_norm": 0.45380252599716187,
      "learning_rate": 1.551019976672058e-05,
      "loss": 0.5777853488922119,
      "memory(GiB)": 389.68,
      "step": 775,
      "token_acc": 0.8110020910406949,
      "train_speed(iter/s)": 0.054377
    },
    {
      "epoch": 0.7600487210718636,
      "grad_norm": 0.5304797291755676,
      "learning_rate": 1.4930899877361015e-05,
      "loss": 0.5180749416351318,
      "memory(GiB)": 389.68,
      "step": 780,
      "token_acc": 0.8334659769200159,
      "train_speed(iter/s)": 0.05443
    },
    {
      "epoch": 0.7649208282582217,
      "grad_norm": 0.447553426027298,
      "learning_rate": 1.4360720874457607e-05,
      "loss": 0.5336573123931885,
      "memory(GiB)": 389.68,
      "step": 785,
      "token_acc": 0.8346641615782058,
      "train_speed(iter/s)": 0.054438
    },
    {
      "epoch": 0.7697929354445798,
      "grad_norm": 0.5468970537185669,
      "learning_rate": 1.3799811052033467e-05,
      "loss": 0.6092133522033691,
      "memory(GiB)": 389.68,
      "step": 790,
      "token_acc": 0.7997620261771206,
      "train_speed(iter/s)": 0.054456
    },
    {
      "epoch": 0.7746650426309378,
      "grad_norm": 0.6424246430397034,
      "learning_rate": 1.3248316293352946e-05,
      "loss": 0.6084504127502441,
      "memory(GiB)": 389.68,
      "step": 795,
      "token_acc": 0.8091853471842537,
      "train_speed(iter/s)": 0.05451
    },
    {
      "epoch": 0.7795371498172959,
      "grad_norm": 0.5339289903640747,
      "learning_rate": 1.2706380032979691e-05,
      "loss": 0.535353136062622,
      "memory(GiB)": 389.68,
      "step": 800,
      "token_acc": 0.8231229847996315,
      "train_speed(iter/s)": 0.054509
    },
    {
      "epoch": 0.7795371498172959,
      "eval_loss": 0.587626039981842,
      "eval_runtime": 6.1485,
      "eval_samples_per_second": 0.651,
      "eval_steps_per_second": 0.651,
      "step": 800
    },
    {
      "epoch": 0.784409257003654,
      "grad_norm": 0.47259068489074707,
      "learning_rate": 1.2174143219471878e-05,
      "loss": 0.6263217449188232,
      "memory(GiB)": 389.68,
      "step": 805,
      "token_acc": 0.7991557070953077,
      "train_speed(iter/s)": 0.054434
    },
    {
      "epoch": 0.7892813641900122,
      "grad_norm": 0.5547453761100769,
      "learning_rate": 1.1651744278723687e-05,
      "loss": 0.5090929985046386,
      "memory(GiB)": 389.68,
      "step": 810,
      "token_acc": 0.8354404976921533,
      "train_speed(iter/s)": 0.054448
    },
    {
      "epoch": 0.7941534713763703,
      "grad_norm": 0.4848991930484772,
      "learning_rate": 1.1139319077963178e-05,
      "loss": 0.5273432254791259,
      "memory(GiB)": 389.68,
      "step": 815,
      "token_acc": 0.8295368261199696,
      "train_speed(iter/s)": 0.054475
    },
    {
      "epoch": 0.7990255785627284,
      "grad_norm": 0.5590830445289612,
      "learning_rate": 1.0637000890415388e-05,
      "loss": 0.6279808044433594,
      "memory(GiB)": 389.68,
      "step": 820,
      "token_acc": 0.8061934585942937,
      "train_speed(iter/s)": 0.054494
    },
    {
      "epoch": 0.8038976857490865,
      "grad_norm": 1.119874358177185,
      "learning_rate": 1.0144920360640303e-05,
      "loss": 0.6255881309509277,
      "memory(GiB)": 389.68,
      "step": 825,
      "token_acc": 0.8063498323802012,
      "train_speed(iter/s)": 0.0545
    },
    {
      "epoch": 0.8087697929354446,
      "grad_norm": 0.4502837359905243,
      "learning_rate": 9.663205470554276e-06,
      "loss": 0.5530724048614502,
      "memory(GiB)": 389.68,
      "step": 830,
      "token_acc": 0.8286991062562066,
      "train_speed(iter/s)": 0.054498
    },
    {
      "epoch": 0.8136419001218027,
      "grad_norm": 0.47327640652656555,
      "learning_rate": 9.19198150614417e-06,
      "loss": 0.6426435470581054,
      "memory(GiB)": 389.68,
      "step": 835,
      "token_acc": 0.7995495495495496,
      "train_speed(iter/s)": 0.054482
    },
    {
      "epoch": 0.8185140073081608,
      "grad_norm": 0.45425912737846375,
      "learning_rate": 8.73137102488249e-06,
      "loss": 0.5113016128540039,
      "memory(GiB)": 389.68,
      "step": 840,
      "token_acc": 0.8368200836820083,
      "train_speed(iter/s)": 0.054528
    },
    {
      "epoch": 0.8233861144945189,
      "grad_norm": 0.5594798922538757,
      "learning_rate": 8.28149382385231e-06,
      "loss": 0.5977861881256104,
      "memory(GiB)": 389.68,
      "step": 845,
      "token_acc": 0.8159670164917541,
      "train_speed(iter/s)": 0.054545
    },
    {
      "epoch": 0.8282582216808769,
      "grad_norm": 0.38594865798950195,
      "learning_rate": 7.842466908590006e-06,
      "loss": 0.5546538829803467,
      "memory(GiB)": 389.68,
      "step": 850,
      "token_acc": 0.8362763915547025,
      "train_speed(iter/s)": 0.05454
    },
    {
      "epoch": 0.833130328867235,
      "grad_norm": 0.6128694415092468,
      "learning_rate": 7.414404462654051e-06,
      "loss": 0.5578857898712158,
      "memory(GiB)": 389.68,
      "step": 855,
      "token_acc": 0.8173973075595443,
      "train_speed(iter/s)": 0.054466
    },
    {
      "epoch": 0.8380024360535931,
      "grad_norm": 0.5973862409591675,
      "learning_rate": 6.997417817927865e-06,
      "loss": 0.6116644382476807,
      "memory(GiB)": 389.68,
      "step": 860,
      "token_acc": 0.8100558659217877,
      "train_speed(iter/s)": 0.054467
    },
    {
      "epoch": 0.8428745432399513,
      "grad_norm": 0.5695779323577881,
      "learning_rate": 6.591615425664144e-06,
      "loss": 0.6063879013061524,
      "memory(GiB)": 389.68,
      "step": 865,
      "token_acc": 0.8113871180479226,
      "train_speed(iter/s)": 0.054502
    },
    {
      "epoch": 0.8477466504263094,
      "grad_norm": 0.37414440512657166,
      "learning_rate": 6.197102828278611e-06,
      "loss": 0.5134734153747559,
      "memory(GiB)": 389.68,
      "step": 870,
      "token_acc": 0.8304152076038019,
      "train_speed(iter/s)": 0.054524
    },
    {
      "epoch": 0.8526187576126675,
      "grad_norm": 0.8222331404685974,
      "learning_rate": 5.813982631900122e-06,
      "loss": 0.5653984069824218,
      "memory(GiB)": 389.68,
      "step": 875,
      "token_acc": 0.8229976496112819,
      "train_speed(iter/s)": 0.054534
    },
    {
      "epoch": 0.8574908647990256,
      "grad_norm": 0.3609310984611511,
      "learning_rate": 5.442354479684558e-06,
      "loss": 0.49175424575805665,
      "memory(GiB)": 389.68,
      "step": 880,
      "token_acc": 0.8409646976581615,
      "train_speed(iter/s)": 0.054533
    },
    {
      "epoch": 0.8623629719853837,
      "grad_norm": 0.6293960213661194,
      "learning_rate": 5.082315025899315e-06,
      "loss": 0.604953384399414,
      "memory(GiB)": 389.68,
      "step": 885,
      "token_acc": 0.8073544433094995,
      "train_speed(iter/s)": 0.05455
    },
    {
      "epoch": 0.8672350791717418,
      "grad_norm": 0.4242098331451416,
      "learning_rate": 4.733957910785114e-06,
      "loss": 0.4986411571502686,
      "memory(GiB)": 389.68,
      "step": 890,
      "token_acc": 0.8444040036396724,
      "train_speed(iter/s)": 0.054562
    },
    {
      "epoch": 0.8721071863580999,
      "grad_norm": 0.5025205612182617,
      "learning_rate": 4.397373736201782e-06,
      "loss": 0.5355000495910645,
      "memory(GiB)": 389.68,
      "step": 895,
      "token_acc": 0.8340460526315789,
      "train_speed(iter/s)": 0.054564
    },
    {
      "epoch": 0.876979293544458,
      "grad_norm": 0.42587506771087646,
      "learning_rate": 4.072650042064174e-06,
      "loss": 0.6113440513610839,
      "memory(GiB)": 389.68,
      "step": 900,
      "token_acc": 0.8042306924765515,
      "train_speed(iter/s)": 0.054571
    },
    {
      "epoch": 0.876979293544458,
      "eval_loss": 0.5867875814437866,
      "eval_runtime": 6.1618,
      "eval_samples_per_second": 0.649,
      "eval_steps_per_second": 0.649,
      "step": 900
    },
    {
      "epoch": 0.881851400730816,
      "grad_norm": 0.6062163710594177,
      "learning_rate": 3.759871283574562e-06,
      "loss": 0.5853659629821777,
      "memory(GiB)": 389.68,
      "step": 905,
      "token_acc": 0.8163235076284995,
      "train_speed(iter/s)": 0.054495
    },
    {
      "epoch": 0.8867235079171741,
      "grad_norm": 0.5810290575027466,
      "learning_rate": 3.4591188092571893e-06,
      "loss": 0.5189132213592529,
      "memory(GiB)": 389.68,
      "step": 910,
      "token_acc": 0.848421052631579,
      "train_speed(iter/s)": 0.054517
    },
    {
      "epoch": 0.8915956151035322,
      "grad_norm": 0.5703849196434021,
      "learning_rate": 3.1704708398009486e-06,
      "loss": 0.5976828575134278,
      "memory(GiB)": 389.68,
      "step": 915,
      "token_acc": 0.808837066584842,
      "train_speed(iter/s)": 0.05451
    },
    {
      "epoch": 0.8964677222898904,
      "grad_norm": 0.5777165293693542,
      "learning_rate": 2.894002447715399e-06,
      "loss": 0.5165195465087891,
      "memory(GiB)": 389.68,
      "step": 920,
      "token_acc": 0.8424015009380863,
      "train_speed(iter/s)": 0.054567
    },
    {
      "epoch": 0.9013398294762485,
      "grad_norm": 0.48375067114830017,
      "learning_rate": 2.6297855378057623e-06,
      "loss": 0.46347522735595703,
      "memory(GiB)": 389.68,
      "step": 925,
      "token_acc": 0.8408729585200173,
      "train_speed(iter/s)": 0.054561
    },
    {
      "epoch": 0.9062119366626066,
      "grad_norm": 0.4930781126022339,
      "learning_rate": 2.3778888284716193e-06,
      "loss": 0.6031323909759522,
      "memory(GiB)": 389.68,
      "step": 930,
      "token_acc": 0.8058429701765064,
      "train_speed(iter/s)": 0.054553
    },
    {
      "epoch": 0.9110840438489647,
      "grad_norm": 0.42932575941085815,
      "learning_rate": 2.138377833834404e-06,
      "loss": 0.5199082851409912,
      "memory(GiB)": 389.68,
      "step": 935,
      "token_acc": 0.837616269903831,
      "train_speed(iter/s)": 0.054552
    },
    {
      "epoch": 0.9159561510353228,
      "grad_norm": 0.6615188717842102,
      "learning_rate": 1.9113148466983254e-06,
      "loss": 0.6138844013214111,
      "memory(GiB)": 389.68,
      "step": 940,
      "token_acc": 0.8027118644067797,
      "train_speed(iter/s)": 0.054582
    },
    {
      "epoch": 0.9208282582216809,
      "grad_norm": 0.41028302907943726,
      "learning_rate": 1.696758922348979e-06,
      "loss": 0.5526364803314209,
      "memory(GiB)": 389.68,
      "step": 945,
      "token_acc": 0.8190247252747253,
      "train_speed(iter/s)": 0.054578
    },
    {
      "epoch": 0.925700365408039,
      "grad_norm": 0.48014047741889954,
      "learning_rate": 1.4947658631941309e-06,
      "loss": 0.49515771865844727,
      "memory(GiB)": 389.68,
      "step": 950,
      "token_acc": 0.832800851970181,
      "train_speed(iter/s)": 0.054557
    },
    {
      "epoch": 0.9305724725943971,
      "grad_norm": 0.6173512935638428,
      "learning_rate": 1.3053882042503796e-06,
      "loss": 0.5243947505950928,
      "memory(GiB)": 389.68,
      "step": 955,
      "token_acc": 0.8282737560625112,
      "train_speed(iter/s)": 0.054472
    },
    {
      "epoch": 0.9354445797807551,
      "grad_norm": 0.6899262070655823,
      "learning_rate": 1.1286751994797284e-06,
      "loss": 0.636317253112793,
      "memory(GiB)": 389.68,
      "step": 960,
      "token_acc": 0.8041509433962264,
      "train_speed(iter/s)": 0.05449
    },
    {
      "epoch": 0.9403166869671132,
      "grad_norm": 0.538864016532898,
      "learning_rate": 9.646728089794167e-07,
      "loss": 0.5281119823455811,
      "memory(GiB)": 389.68,
      "step": 965,
      "token_acc": 0.828132906054984,
      "train_speed(iter/s)": 0.054472
    },
    {
      "epoch": 0.9451887941534713,
      "grad_norm": 0.7353665828704834,
      "learning_rate": 8.134236870284861e-07,
      "loss": 0.6087577819824219,
      "memory(GiB)": 389.68,
      "step": 970,
      "token_acc": 0.8098674274207082,
      "train_speed(iter/s)": 0.054485
    },
    {
      "epoch": 0.9500609013398295,
      "grad_norm": 0.7473301887512207,
      "learning_rate": 6.749671709941008e-07,
      "loss": 0.6141918182373047,
      "memory(GiB)": 389.68,
      "step": 975,
      "token_acc": 0.8016149752248118,
      "train_speed(iter/s)": 0.054518
    },
    {
      "epoch": 0.9549330085261876,
      "grad_norm": 0.6487853527069092,
      "learning_rate": 5.493392711005796e-07,
      "loss": 0.5959615707397461,
      "memory(GiB)": 389.68,
      "step": 980,
      "token_acc": 0.8156642881413524,
      "train_speed(iter/s)": 0.054561
    },
    {
      "epoch": 0.9598051157125457,
      "grad_norm": 0.678453803062439,
      "learning_rate": 4.365726610637222e-07,
      "loss": 0.5411821842193604,
      "memory(GiB)": 389.68,
      "step": 985,
      "token_acc": 0.8313556274721323,
      "train_speed(iter/s)": 0.054544
    },
    {
      "epoch": 0.9646772228989038,
      "grad_norm": 0.5119591355323792,
      "learning_rate": 3.366966695929119e-07,
      "loss": 0.49676513671875,
      "memory(GiB)": 389.68,
      "step": 990,
      "token_acc": 0.8351805505899178,
      "train_speed(iter/s)": 0.054553
    },
    {
      "epoch": 0.9695493300852619,
      "grad_norm": 0.6289726495742798,
      "learning_rate": 2.4973727276323965e-07,
      "loss": 0.60072922706604,
      "memory(GiB)": 389.68,
      "step": 995,
      "token_acc": 0.8124610591900312,
      "train_speed(iter/s)": 0.054575
    },
    {
      "epoch": 0.97442143727162,
      "grad_norm": 0.5490319132804871,
      "learning_rate": 1.7571708725953596e-07,
      "loss": 0.5364939212799072,
      "memory(GiB)": 389.68,
      "step": 1000,
      "token_acc": 0.8235892221657346,
      "train_speed(iter/s)": 0.054556
    },
    {
      "epoch": 0.97442143727162,
      "eval_loss": 0.5838146805763245,
      "eval_runtime": 6.1207,
      "eval_samples_per_second": 0.654,
      "eval_steps_per_second": 0.654,
      "step": 1000
    },
    {
      "epoch": 0.9792935444579781,
      "grad_norm": 0.4941563010215759,
      "learning_rate": 1.1465536449415393e-07,
      "loss": 0.5735920906066895,
      "memory(GiB)": 389.68,
      "step": 1005,
      "token_acc": 0.8156670746634027,
      "train_speed(iter/s)": 0.054474
    },
    {
      "epoch": 0.9841656516443362,
      "grad_norm": 0.5679388046264648,
      "learning_rate": 6.656798560001343e-08,
      "loss": 0.5337845325469971,
      "memory(GiB)": 389.68,
      "step": 1010,
      "token_acc": 0.8183527641970666,
      "train_speed(iter/s)": 0.054492
    },
    {
      "epoch": 0.9890377588306942,
      "grad_norm": 0.43481603264808655,
      "learning_rate": 3.146745730015499e-08,
      "loss": 0.5338433265686036,
      "memory(GiB)": 389.68,
      "step": 1015,
      "token_acc": 0.8283907544701264,
      "train_speed(iter/s)": 0.054525
    },
    {
      "epoch": 0.9939098660170523,
      "grad_norm": 0.44339102506637573,
      "learning_rate": 9.362908654986235e-09,
      "loss": 0.5187356472015381,
      "memory(GiB)": 389.68,
      "step": 1020,
      "token_acc": 0.8316270566727605,
      "train_speed(iter/s)": 0.054538
    },
    {
      "epoch": 0.9987819732034104,
      "grad_norm": 0.7172895669937134,
      "learning_rate": 2.6008868793114817e-10,
      "loss": 0.5243105888366699,
      "memory(GiB)": 389.68,
      "step": 1025,
      "token_acc": 0.8462152666879591,
      "train_speed(iter/s)": 0.054564
    },
    {
      "epoch": 0.9997563946406821,
      "eval_loss": 0.5837547183036804,
      "eval_runtime": 6.0694,
      "eval_samples_per_second": 0.659,
      "eval_steps_per_second": 0.659,
      "step": 1026
    }
  ],
  "logging_steps": 5,
  "max_steps": 1026,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.095035636732416e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}